Skip to content
3D SOULERS: HABLAMOS DE…Veo 3: Imagínalo. Descríbelo. Listo.
Veo 3: Google pone imagen y sonido a la imaginación

Desde que la generación de imágenes por texto se popularizó, quedaba pendiente un reto mayor: mover esas imágenes y darles voz. El pasado mayo, durante Google I/O 2025, DeepMind presentó Veo 3, la tercera iteración de su modelo de texto a vídeo. El anuncio no solo elevó la calidad visual hasta 4K, sino que incorporó, por primera vez en este tipo de sistemas, diálogos y efectos sonoros sincronizados. Con ello, Google inaugura una nueva etapa en la que escribir un párrafo basta para producir un clip cinematográfico breve, completo y con banda sonora.


Fuente – Google Veo3

Un salto generacional que se nota y se oye

Aún fresco el recuerdo de Veo 2, Veo 3 se desmarca en varios frentes. La voz—generada y mezclada en la misma pasada que las imágenes—es el avance más vistoso: ya no hace falta emparejar un MP3 en postproducción. También mejora la resolución (1080p → 4K), la simulación física de fluidos y telas, y la fidelidad con la que interpreta indicaciones de cámara o iluminación. Detrás del resultado está Gemini, el LLM de Google que lee el prompt, traduce la intención cinematográfica y alimenta a Veo 3 con un “guion” semántico afinado.
Para los usuarios profesionales, Google ha lanzado Flow, una interfaz con línea de tiempo que permite iterar tomas, fijar personajes (los llamados Ingredients) y mover la cámara sin escribir código. Además, la integración nativa en Vertex AI abre la puerta a pipelines de estudio: Veo 3 puede encajar en un flujo de producción típico de animación, marketing o prototipado.


Fuente – Google Veo3

¿Cómo se sitúa frente a Sora o Runway Gen 3?

OpenAI Sora y Runway Gen 3 llevan ventaja en duración máxima (10 y 6 segundos, respectivamente), pero su carencia de audio nativo los obliga a un paso extra. Veo 3 sacrifica dos segundos de metraje frente a Sora, a cambio de entregar un clip “cerrado” con voz, música y ambiente listos para publicar. Para muchos creadores, ese intercambio compensa.

Luces… y todavía algunas sombras

Entre las novedades brillan ciertas limitaciones:
• Solo 8 segundos: perfectos para un vistazo rápido, insuficientes para escenas largas.
• Consistencia entre clips: aunque ha mejorado, los rasgos de un mismo personaje pueden variar si dividimos la secuencia en varias pasadas.
• Coste: el plan AI Ultra (≈ 250 USD/mes) es la única vía sin restricciones severas de uso.
• Moderación: Google marca los vídeos con SynthID y aplica filtros estrictos para menores o contenido sensible; un alivio para la industria, un freno para la experimentación total.

Una ventana abierta al videojuego

Donde las miradas se agudizan es en el desarrollo de videojuegos. ¿Puede Veo 3 colarse en nuestras partidas? Por ahora, su papel es más de pre producción que de runtime, pero las posibilidades asoman:
1. Cinemáticas rápidas: los estudios pueden esbozar tráilers conceptuales o escenas narrativas sin pasar por sesiones de captura de movimiento ni doblaje provisional. Bastan un par de prompts bien afinados.
2. Previz en motor: importar los clips en Unity o Unreal como referencia acelera la puesta en escena antes de invertir horas en animación tradicional.
3. Narrativa adaptativa: en un futuro con menor latencia, Veo podría generar micro cinemáticas que respondan a las acciones del jugador, ampliando la sensación de mundo vivo sin tener que pre renderizar cada bifurcación.
4. Contenido creado por la comunidad: los usuarios, armados con un editor textual, podrían diseñar intros o momentos personalizados y compartirlos; un terreno fértil para mods y economías creativas.
Los retos no son menores: la latencia de inferencia, la coherencia estética con el arte in engine y la supervisión de prompts siguen en la lista de pendientes. Pero si la curva de mejora replica lo visto en la generación de imágenes, el salto podría llegar antes de lo que pensamos.

Hacia un audiovisual end to end generado

Veo 3 demuestra que el texto a vídeo no se conforma con mover píxeles; aspira a orquestar luz, sonido y actuación. Mientras Google ya deja caer que trabaja en control de cámara keyframeado y generadores imagen a vídeo de mayor duración, sectores como el cine independiente, el marketing de nicho y cada vez más, el desarrollo de videojuegos empiezan a tomar nota.
En menos de un año, hemos pasado de composiciones estáticas a clips 4K con voz propia. El día en que un NPC improvise un recuerdo infantil—animado y narrado al vuelo—puede que no esté tan lejos. Veo 3 es, por ahora, el mejor indicio de que esa escena está en marcha.

3DSOUL

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos.    Más información
Privacidad
×