Míralo y llora (o sonríe): los avatares de vídeo con IA de Synthesia ahora presentan emociones

La IA generativa ha capturado la imaginación del público con un salto hacia la creación de textos e imágenes elaborados y plausiblemente reales a partir de indicaciones verbales. Pero el problema (y a menudo hay un problema) es que los resultados a menudo están lejos de ser perfectos cuando se mira un poco más de cerca.

La gente señala dedos extraños; baldosas deslizarse; y problemas de matematicas son precisamente eso: problemáticamente, a veces no cuadran.

Ahora, Synthesia, una de las ambiciosas nuevas empresas de inteligencia artificial que trabaja en video, específicamente avatares personalizados diseñados para que los usuarios empresariales creen contenido de video promocional, de capacitación y otros contenidos empresariales, está lanzando una actualización que espera le ayude a superar algunos de los desafíos de su negocio. campo particular. Su última versión presenta avatares, creados a partir de humanos reales capturados en su estudio, que brindan más emoción, mejor seguimiento de los labios y lo que dice son movimientos naturales y humanos más expresivos cuando se les alimenta con texto para generar videos.

El lanzamiento llega inmediatamente después de un progreso impresionante para la compañía hasta la fecha. A diferencia de otros actores de la IA generativa como OpenAI, que ha construido una estrategia doble: aumentar la conciencia pública con herramientas de consumo como ChatGPT y al mismo tiempo desarrollar una oferta B2B, con sus API utilizadas por desarrolladores independientes y empresas gigantes, Synthesia se está inclinando hacia en el enfoque que están adoptando otras destacadas empresas emergentes de IA.

De manera similar a cómo Perplexity se enfoca en lograr la búsqueda de IA generativa, Synthesia se enfoca en realmente cómo construir los avatares de video generativos más humanos posibles. Más concretamente, busca hacer esto solo para el mercado empresarial y casos de uso como capacitación y marketing.

Ese enfoque ha ayudado a Synthesia a destacarse en lo que se ha convertido en un mercado muy concurrido de IA que corre el riesgo de convertirse en un producto básico cuando la exageración se convierta en preocupaciones a más largo plazo como ARR, economía unitaria y costos operativos asociados a las implementaciones de IA.

Synthesia describe sus nuevos Avatares Expresivo, la versión que se lanzará el jueves, como la primera de su tipo: «Los primeros avatares del mundo totalmente generados con IA». Construido sobre grandes modelos previamente entrenados, Synthesia dice que su avance ha sido cómo se combinan para lograr distribuciones multimodales que imitan más fielmente cómo hablan los humanos reales.

Estos se generan sobre la marcha, dice Synthesia, lo que pretende acercarse más a la experiencia que atravesamos cuando hablamos o reaccionamos en la vida, y contrasta con cómo funcionan hoy en día muchas herramientas de vídeo de IA basadas en avatares: normalmente estos En realidad, hay muchas piezas de video que se unen rápidamente para crear respuestas faciales que se alinean, más o menos, con los guiones que se les introducen. El objetivo es parecer menos robótico y más realista.

Versión previa:

Nueva versión:

Como puede ver en los dos ejemplos aquí, uno de la versión anterior de Synthesia y el que se lanza hoy, todavía hay mucho camino por recorrer en desarrollo, algo que el propio CEO Victor Riparbelli también admite.

“Por supuesto, todavía no estamos al 100%, pero lo estará muy, muy pronto, a finales de año. Será tan alucinante”, dijo a TechCrunch. “Creo que también se puede ver que la parte de la IA en esto es muy sutil. En el caso de los humanos, hay tanta información en los detalles más pequeños, en los movimientos más pequeños de nuestros músculos faciales. Creo que nunca podríamos sentarnos y describir: ‘Sí, sonríes así cuando estás feliz, pero eso es falso, ¿verdad?’ Es algo muy complejo de describir para los humanos, pero puede ser [captured in] Redes de aprendizaje profundo. De hecho, son capaces de descubrir el patrón y luego replicarlo de forma predecible”. Lo próximo en lo que está trabajando, añadió, son las manos.

“Las manos son súper duras”, añadió.

El enfoque en B2B también ayuda a Synthesia a centrar más sus mensajes y productos en el uso «seguro» de la IA. Esto es esencial, especialmente dada la enorme preocupación actual por los deepfakes y el uso de la IA con fines maliciosos como la desinformación y el fraude. Aun así, Synthesia no ha logrado evitar por completo la controversia en ese frente. Como hemos señalado antes, la tecnología de Synthesia ha sido previamente mal usado producir propaganda en Venezuela y FALSO informes de noticias promovidos por cuentas de redes sociales pro-China.

La compañía señaló hoy que ha tomado medidas adicionales para intentar bloquear ese uso. El mes pasadoactualizó sus políticas, dijo, «para restringir el tipo de contenido que la gente puede crear, invirtiendo en la detección temprana de actores de mala fe, aumentando los equipos que trabajan en la seguridad de la IA y experimentando con tecnologías de credenciales de contenido como C2PA».

A pesar de esos desafíos, la empresa ha seguido creciendo.

Synthesia fue valorada por última vez en mil millones de dólares cuando recaudó 90 millones de dólares. En particular, esa recaudación de fondos fue hace casi un año, en junio de 2023.

Riparbelli (en la foto de arriba, a la derecha, con otros cofundadores Steffen Tjerrild, la profesora Lourdes Agapito y el profesor Matthias Niessner) dijo en una entrevista a principios de este mes que actualmente no hay planes para recaudar más, aunque eso en realidad no responde a la pregunta de si Synthesia se está acercando de manera proactiva. (Nota: estamos muy emocionados de tener al Riparbelli humano real hablando en un evento nuestro en Londres en mayo, donde definitivamente voy a preguntar sobre esto nuevamente. Por favor, ven si estás en la ciudad).

Lo que sí sabemos con certeza es que construir y ejecutar la IA cuesta mucho dinero, y Synthesia ha estado construyendo y ejecutando mucho.

Antes del lanzamiento de la versión de hoy, unas 200.000 personas crearon más de 18 millones de presentaciones de vídeo en unos 130 idiomas utilizando los 225 avatares heredados de Synthesia, dijo la compañía. (No desglosa cuántos usuarios hay en sus niveles pagos, pero hay muchos clientes de renombre, incluidos Zoom, la BBC, DuPont y más, y las empresas sí pagan). La esperanza de la startup, por supuesto, es que Con la nueva versión lanzada hoy, esos números aumentarán aún más.