Si eres entrenador, analista o scouter, ViTAG te interesa
marzo 1, 2024¿Cuál es el mejor gestor de videos de viajes? ¡Descubre ViTAG!
marzo 8, 2024Aparecen en pantalla tres Audrey Hepburn casi perfectas: cantan, hablan y su expresión es tan real que ya nada volverá a ser lo mismo
Prepárate para que te vuele la cabeza, a ti y a toda una industria audiovisual que debe estar dando vueltas sobre sí misma.
La primera imagen a la izquierda del vídeo que vamos a ver a continuación es un fotograma congelado de Audrey Hepburn interpretando a la princesa Anna en la película Vacaciones en Roma (1953). La segunda también nos muestra a la actriz en el mismo escenario. En este caso, es un pequeño clip de la película donde sale cantando. Sin embargo, hay algo raro. Hepburn está interpretando la canción Perfect, de Samantha Harvey, un single que salió en 2020. Por último, la tercera imagen nos muestra otra vez la misma escena, pero esta vez es un clip donde Hepburn, en vez de cantar, nos está dando un discurso perfecto.
¿Qué clase de brujería es esta?
Cuando OpenAI presentó ese tráiler casi perfecto de su nueva herramienta Sora, capaz de generar vídeo a través de texto, nos quedamos asombrados vislumbrando la revolución que puede suponer. Lo que se acaba de presentar es, si cabe, aún más espectacular. Me pregunto que estarán pensando en la industria cinematográfica cuando vean cosas como estas. Nunca pensé que este nivel de detalle en la sincronización del diálogo con la expresión humana le iba a llevar tan poco tiempo a la inteligencia artificial. Es ridículo lo increíblemente bien que se ven todas y cada una de las animaciones.
Lo que vamos a ver a continuación es un trabajo publicado hace unas horas en Arxiv por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, todos investigadores del Instituto de Inteligencia en Computación de Alibaba Group. Lo que presentan: su programa EMO (Emote Portrait Alive) diseñado para generar videos de retratos expresivos en condiciones de todo tipo. Un modelo alucinante que aprovecha la técnica de AudioVideo Diffusion, lo que permite la síntesis de animaciones realistas que reflejan las expresiones humanas y los movimientos de la cabeza con una precisión ciertamente asombrosa.
Como vemos en las diferentes secuencias del trabajo recientemente publicado, EMO se destaca por su capacidad para crear videos a partir de una única imagen de referencia y entrada de audio (una foto, un fotograma, un cuadro, un manga…), puede ser un discurso o una canción, produciendo animaciones con expresiones faciales matizadas y posturas dinámicas de la cabeza.
No encuentro palabras para definir bien lo que parece que han logrado. A diferencia de los métodos tradicionales que se basan en modelos 3D o puntos de referencia faciales, el nuevo programa utiliza un enfoque de síntesis directa de audio a video. Dicho de otra forma: hablamos de la capacidad de generar transiciones con resultados tan perfectos como los reales, y de darle coherencia de identidad en todos los fotogramas.
Hoy es la princesa Anna que interpretó Audrey Hepburn en Roman Holiday, Joaquin Phoenix en Joker o la Mona Lisa, que se ha levantado con ganas de charlar, mañana podrá ser prácticamente cualquier cosa.
Sea lo que sea lo que nos deparé el futuro, en VITAG.APP seguiremos trabajando para incorporar los últimos avances tecnológicos a nuestra plataforma, para seguir ofreciéndote la mejor experiencia a la hora de etiquetar, catalogar y conservar tus videos como nunca antes. ¡Recuerda que el registro es gratuito! ¡Empieza a disfrutar de VITAG.APP hoy mismo!
Fuente: Ludd.es