Cover
Sora: la Inteligencia Artificial llega al vídeo

Sora: la Inteligencia Artificial llega al vídeo

OpenAI, desarrolladora de ChatGPT, acaba de presentar Sora, una herramienta que tiene la capacidad de generar vídeos de excelente calidad a partir de indicaciones en formato de texto

Cuando en 2022 la empresa de Inteligencia Artificial OpenAI, anunciaba ChatGPT, todos sabíamos que nuestro concepto del trabajo, el estudio o el ocio estaba experimentando, en mayor o menor medida, un punto de inflexión.

Apenas dos años después ChatGPT no solo ha consolidado su posición como la IA más destacada en la actualidad, sino que todos lo usamos en nuestro día a día para muchas tareas. Poco después la compañía ampliaba el texto con DALL-E, capaz de generar imágenes a través de esta tecnología; y ahora ha dado un paso más al presentar una herramienta que no solo revolucionará el campo de la IA, sino también la industria audiovisual.

OpenAI acaba de presentar Sora, una herramienta que tiene la capacidad de generar vídeos de excelente calidad a partir de indicaciones en formato de texto o mediante un «prompt» (la manera en que los humanos se comunican con la IA, proporcionando indicaciones escritas para obtener respuestas acorde a sus intereses).

En las demostraciones iniciales, Sora ha exhibido su habilidad para generar secuencias cinematográficas impresionantes, dotando a los personajes de los vídeos con emociones y expresiones completamente realistas. De hecho, este modelo es capaz de generar escenas complejas con varios personajes en movimiento, incorporando detalles precisos del sujeto y del entorno circundante.

Esto significa que Sora no solo comprende las instrucciones del usuario, sino que también entiende la existencia de elementos en el mundo. Así, Sora puede generar vídeos completos de una vez o extender los vídeos generados para hacerlos más largos. De hecho, puede crear vídeos tanto a partir de instrucciones en texto como de imágenes fijas ya existentes, prestando atención a los pequeños detalles.

Gracias a su comprensión del lenguaje, esta IA puede interpretar con precisión las instrucciones, generando figuras convincentes capaces de expresar emociones. Además, Sora puede crear varias tomas dentro de un mismo vídeo generado, manteniendo con precisión los personajes y el estilo visual.

El funcionamiento de Sora se basa en la técnica de recapitulación de DALL-E 3, que genera subtítulos detallados para los datos visuales de entrenamiento. Esto permite que el modelo siga de manera más fiel las instrucciones de texto del usuario en el vídeo generado. Sora utiliza una arquitectura de transformadores, similar a los modelos GPT, lo que le proporciona un rendimiento de escalado superior.

Eso sí, Sora aún presenta limitaciones en la duración de sus vídeos, generando contenido con una duración máxima de un minuto. Asimismo, sus creadores reconocen que la herramienta aún necesita pulir algunos detalles, como las interacciones complejas entre objetos y personas, y la interpretación precisa de indicaciones como izquierda y derecha.

A pesar de estas pequeñas debilidades, OpenAI está enseñando a la IA a simular y comprender el mundo físico en movimiento. La compañía también está trabajando en aspectos relacionados con la seguridad, utilizando un clasificador de texto para rechazar entradas que soliciten violencia extrema, contenido sexual, imágenes que inciten al odio o que incluyan propiedad intelectual de terceros.

Aunque OpenAI no ha anunciado la fecha de lanzamiento de Sora en el mercado español, actualmente está en manos de un equipo de evaluación y algunos artistas visuales y cineastas para obtener retroalimentación y mejorarlo.

Foto de Levart_Photographer en Unsplash