167 vistas

Nueva IA «Sora»: inteligencia artificial que puede crear videos hiperrealistas

De los creadores de Chat GPT, Sora, un nuevo modelo de texto a vídeo. “Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.”

Redacción

16 febrero, 2024

Publicidad

De los creadores de Chat GPT, Sora, un nuevo modelo de texto a vídeo. “Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.”

Según OpenAI, las capacidades de esta IA incluyen “generar un vídeo únicamente a partir de instrucciones de texto, tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención al pequeño detalle. Además, el modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes.”

De momento, Sora no está disponible al público general.  Se encuentra abierto para un pequeño grupo de «artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos». Por otra parte, expertos en áreas como desinformación y contenido que incita al odio y prejuicios, el denominado equipo rojo de Open AI, está evaluando «áreas críticas en busca de daños o riesgos».

Pero ya en este momento temprano de su desarrollo, las capacidades de Sora son sorprendentes, ya que es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos de los protagonistas y del fondo. Según sus creadores, «el modelo comprende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico».

La investigación y métodos usados para crear a Sora también representan un enorme avance en el desarrollo de inteligencia artificial ya que “sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr AGI.”

Lo anunció ayer Sam Altman, director ejecutivo de OpenAI, de en X y al instante esta red social se llenó de video de todo tipo creados con esta nueva herramienta. Desde escenas futuristas, a clips de dibujos animados o escenas de un pueblo del Oeste americano que cuelan perfectamente como filmación antigua o vintage. De momento solo hasta un minuto de duración y mediante instrucciones textuales. Sora también puede alargar vídeos ya existentes.

En el casi medio centenar de vídeos generados con Sora, que se han publicado en la web del proyecto, se muestran imágenes con personajes que resultan convincentes y con una gran consistencia visual a lo largo de los distintos planos y tomas que la IA también es capaz de generar. Esto, según sus responsables, demuestra que «el modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes que expresan emociones vibrantes».

Con todo, en su versión actual y que se dio a conocer ayer, aún presenta algunas limitaciones. Aún tiene dificultades, como reconocen desde Open AI, «para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco». Del mismo modo, «también puede confundir los detalles espaciales de un prompt, por ejemplo, mezclando izquierda y derecha -como se observa en el video del hombre corriendo en la cinta de ejercicios-, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica».

Como suele ser habitual ante cualquier salto adelante de la IA, surgen de inmediato las preocupaciones del mal uso que se puede hacer de una herramienta como Sora. En este sentido, cabe recordar que Sora no es la primera herramienta generativa de vídeos. El laboratorio Midjourney tiene un bot en Discord con el que es posible generar videos cortos mediante instrucciones textuales. O Stable Diffussion, otro modelo con el que también se pueden crear vídeos, aunque de solo entre 2 y 5 segundos.

En cualquier caso, las capacidades de estos dos modelos quedan muy atrás de las de Sora, a la que -por ejemplo- se le podría lanzar la petición de que hiciera un vídeo de soldados del ejército que se quisiera entrando en un hospital y matando a médicos y pacientes y que las imágenes tuvieran el mismo estilo de las que emiten las televisiones de todo el mundo en cualquier conflicto bélico. A partir de este ejemplo, la lista de malos usos imaginables es larguísima, aunque no difieren mucho de los más habituales siempre que se habla de los conflictos éticos de cualquier modelo de IA. 

Por esta razón, Open AI ha explicado que ya está tomando precauciones en este sentido y asegura que ya está trabajando en la creación de «herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video», basándose en la experiencia adquirida en el desarrollo de DALL·E 3, el modelo de creación de imágenes de Open AI, que también son aplicables a Sora.

De este modo, cuando Sora esté integrado en algún otro producto de Open AI y se abra al público, se rechazarán las solicitudes de ingreso de texto que pidan generar vídeos que muestren «violencia extrema, contenido sexual, imágenes de odio o imágenes de celebridades», aseguran. Pero desde esta compañía reconocen lo inevitable y que a pesar «de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella». 

No hay etiquetas relacionadas para esta publicación.

Avenida Manta-Montecristi Km 6 1/2. Edificio Oromartv. Manta, Ecuador.