Descubre el lado más personal de Ilia Topuria, campeón del mundo de la UFC
febrero 20, 2024Si eres entrenador, analista o scouter, ViTAG te interesa
marzo 1, 2024Sora: la nueva herramienta de OpenAI que convierte texto en videos realistas
Ya sabemos que los chatbots de OpenAI pueden aprobar el examen de derecho sin tener que ir a la facultad. Ahora, justo a tiempo para los Premios Oscar, una nueva aplicación de OpenAI llamada Sora espera dominar el cine sin ir a la escuela de cine. Sora, que por ahora es un producto de investigación, se va a distribuir a unos cuantos creadores seleccionados y a varios expertos en seguridad que le someterán a un examen para detectar vulnerabilidades de seguridad. OpenAI tiene previsto ponerla a disposición de todos los aspirantes a autores en una fecha no especificada, pero ha decidido adelantarse a su lanzamiento.
VITAG.APP y las nuevas tecnologías
Video fotorrealista realmente asombroso
Otras empresas, desde gigantes como Google a startups como Runway, ya han revelado proyectos de IA que traducen texto a video. Sin embargo, OpenAI afirma que Sora se distingue por su asombroso fotorrealismo, algo que no he visto entre sus competidores, y también por su capacidad para producir clips de hasta un minuto, más largos que los breves fragmentos que suelen hacer otros modelos. Los investigadores con los que hablé no me dijeron cuánto tiempo se tarda en renderizar todo ese video pero, cuando insistí, lo describieron como algo más parecido a “salir a comprar un burrito” que a “tomarse unos días libres”, y si los ejemplos que vi son dignos de crédito, el esfuerzo vale la pena.
OpenAI no me permitió introducir mis propios prompts, pero compartió cuatro ejemplos del poder de Sora. Ninguno se acercaba al supuesto límite de un minuto; el más largo duraba 17 segundos. El primero procedía de una indicación (prompt) detallada que sonaba como el montaje de un guionista obsesivo. “La hermosa y nevada ciudad de Tokio está en plena ebullición”. La cámara se mueve por la bulliciosa calle de la ciudad, siguiendo a varias personas que disfrutan del hermoso tiempo nevado y compran en los puestos cercanos. Preciosos pétalos de sakura [cerezos] vuelan por el viento junto con los copos de nieve”.
El resultado es una visión convincente de lo que es inconfundíblemente Tokio, en ese momento mágico en que coexisten los copos de nieve y los cerezos en flor. La cámara virtual, como fijada a un dron, sigue a una pareja mientras pasea lentamente por un paisaje callejero. Uno de los transeúntes lleva una máscara. A su izquierda, los coches retumban en la calzada junto al río y, a la derecha, los compradores entran y salen de una hilera de pequeñas tiendas.
No es perfecto
Solo cuando ves el video unas cuantas veces te das cuenta de que los protagonistas (una pareja que pasea por la acera cubierta de nieve) se habrían enfrentado a un dilema si la cámara virtual hubiera seguido funcionando. La acera por la que caminan parece no tener salida; habrían tenido que pasar por encima de una pequeña barandilla para llegar a una extraña pasarela paralela a su derecha. A pesar de este pequeño fallo, el ejemplo de Tokio es un ejercicio alucinante de construcción del mundo. Más adelante, los diseñadores de producción debatirán si se trata de un potente colaborador o de un asesino de empleos. Además, los personajes de este video (generados íntegramente por una red neuronal digital) no aparecen en primer plano y no emiten ningún sonido. Sin embargo, el equipo de Sora asegura que en otras ocasiones han contado con actores falsos que mostraban emociones reales.
Los demás clips también son impresionantes, sobre todo uno en el que se pide “una escena animada de un monstruo bajito y esponjoso arrodillado junto a una vela roja”, junto con algunas instrucciones detalladas para la escena (“ojos muy abiertos y boca abierta”) y una descripción de la sensación que se desea transmitir con el clip. Sora produce una criatura al estilo Pixar que parece tener ADN de un Furby, un Gremlin y Sully, de Monsters, Inc. Recuerdo que cuando se estrenó esta última película, Pixar dio mucha importancia a lo difícil que era crear la textura ultracompleja del pelaje de un monstruo cuando la criatura se movía. Los magos de Pixar tardaron meses en conseguirlo. La nueva máquina de texto a vídeo de OpenAI… acaba de hacerlo, al parecer en el mismo tiempo en el que salgo a comer un burrito.
“Aprende sobre geometría 3D y coherencia”, explica Tim Brooks, investigador científico del proyecto, y añade: “No lo hemos incorporado, sino que eso ha surgido de ver un montón de datos”.
Inteligencia artificial que cuenta historias
Aunque las escenas son ciertamente impresionantes, las capacidades más sorprendentes de Sora son aquellas para las que no ha sido entrenada. Gracias a una versión del modelo de difusión utilizado por el generador de imágenes Dall.E3 de OpenAI, y al motor basado en transformadores de GPT-4, Sora no se limita a producir videos que satisfacen las demandas de los prompts, sino que lo hace de una forma que demuestra una comprensión emergente de la narrativa cinematográfica.
Eso se traduce en un don para contar historias. Bill Peebles, otro de los investigadores del proyecto, señala que Sora creó una narrativa impulsada por los ángulos de la cámara y la sincronización. “En realidad, hay varios cambios de plano: no están ‘cosidos’, sino generados por el modelo de una sola vez”, explica, “no le dijimos que lo hiciera, lo hizo automáticamente”.
Vídeo generado por IA realizado con el prompt “un mundo de papel magníficamente representado de un arrecife de coral, plagado de peces de colores y criaturas marinas”.
Video a partir de una imagen
En otro ejemplo que no pude ver, se le pidió a Sora que hiciera un recorrido por un zoo. “Empezó con el nombre del zoo en un gran cartel, fue bajando gradualmente y luego hizo una serie de cambios de plano para mostrar los distintos animales que viven en el zoo”, explica Peebles, “Lo hizo de una forma bonita y cinematográfica que no se le había ordenado explícitamente”.
Una función de Sora que el equipo de OpenAI no mostró, y puede que no lance hasta dentro de un tiempo, es la capacidad de generar videos a partir de una sola imagen o una secuencia de fotogramas. “Esta va a ser otra forma realmente genial de mejorar las capacidades de narración”, afirma Brooks. “Puedes dibujar exactamente lo que tienes en mente y luego animarlo para que cobre vida”. OpenAI es consciente de que esta función también tiene el potencial de producir deepfakes e información errónea. “Vamos a ser muy cuidadosos con todas las implicaciones de seguridad de esto”, añade Peebles.Sora tendrá las mismas restricciones de contenido que Dall-E 3: nada de violencia, nada de porno, nada de apropiarse de personas reales o del estilo de artistas conocidos. Al igual que en Dall-E 3, OpenAI ofrecerá a los espectadores la posibilidad de identificar los resultados como creados por la IA. Aun así, OpenAI afirma que la seguridad y la veracidad son un problema continuo que va más allá de una empresa: “La solución a la desinformación implicará cierto nivel de mitigación por nuestra parte, pero también necesitará la comprensión de la sociedad y que las redes sociales también se adapten”, sostiene Aditya Ramesh, investigador principal y jefe del equipo de Dall-E.
Video generado por IA realizado con el mensaje “varios mamuts lanudos gigantes se acercan caminando por un prado nevado, su largo pelaje lanudo ondea ligeramente con el viento mientras caminan, árboles cubiertos de nieve y espectaculares montañas cubiertas de nieve en la distancia, luz de media tarde con tenues Las nubes y un sol en lo alto en la distancia crean un brillo cálido, la vista baja de la cámara es impresionante y captura al gran mamífero peludo con hermosas fotografías y profundidad de campo”.
No es soplar y hacer películas
Otro posible problema es si el contenido del video que produce Sora infringe los derechos de autor de otros: “Los datos de entrenamiento proceden de contenido del que tenemos licencia y también de contenido disponible públicamente”, señala Peebles. Por supuesto, el meollo de una serie de demandas contra OpenAI gira en torno a la cuestión de si los contenidos protegidos por derechos de autor “disponibles públicamente” son lícitos para el entrenamiento de la IA.
Pasará mucho tiempo, si es que alguna vez llega a ocurrir, antes de que la conversión de texto en video suponga una amenaza para el cine real. No, no se pueden hacer películas coherentes juntando 120 clips de Sora de un minuto de duración, ya que el modelo no responderá a las indicaciones exactamente de la misma manera: la continuidad no es posible. Pero el límite de tiempo no es un obstáculo para que Sora y programas similares transformen TikTok, Reels y otras plataformas sociales. “Para hacer una película profesional se necesita un equipo muy caro”, menciona Peebles. “Este modelo va a permitir a la persona media que hace videos en las redes sociales hacer contenidos de muy alta calidad”.
Por ahora, OpenAI se enfrenta a la ingente tarea de asegurarse de que Sora no sea un choque de trenes de la desinformación. Pero después de eso, empieza la larga cuenta atrás hasta que el próximo Christopher Nolan o Celine Song consigan una estatuilla por su magia a la hora de incitar a un modelo de IA.
Fuente: Wired.com