Dream.exe: ¿Pueden los modelos de generación de video soñar con manipulación robótica ejecutable?

Resumen

Los modelos de generación de video han logrado avances impresionantes en la síntesis de contenido visualmente atractivo, sin embargo, sus resultados permanecen confinados al ámbito virtual. Surge entonces una pregunta natural: ¿hasta qué punto reflejan estos modelos el mundo físico cuando sus videos generados abandonan la pantalla y entran en la realidad? Proponemos la manipulación robótica como una ventana concreta y medible hacia esta cuestión: si un modelo ha internalizado verdaderamente las leyes físicas, el movimiento que representa debería traducirse en un comportamiento robótico ejecutable. Presentamos Dream.exe, un marco de evaluación que operacionaliza este criterio mediante un pipeline de video a ejecución. Dada una imagen de la escena y una descripción de la tarea, Dream.exe sintetiza un video de manipulación, convierte el movimiento generado en trayectorias robóticas y las ejecuta en un simulador físico, generando una señal de fundamentación que las métricas puramente visuales no pueden ofrecer. Utilizando este pipeline, evaluamos 8 modelos que abarcan generadores de código cerrado de vanguardia, generadores de código abierto y modelos específicos para robótica. Nuestro banco de pruebas incluye 101 tareas de manipulación curadas manualmente en tres niveles de complejidad física, medidas en términos de calidad visual, fidelidad de trayectoria y éxito de ejecución. De manera alentadora, varios modelos logran un éxito de ejecución medible, lo que sugiere que los prioris generativos aprendidos a partir de datos a escala de internet ya codifican conocimiento físico significativo. Sin embargo, la calidad visual resulta ser un predictor deficiente de la ejecutabilidad, exponiendo una dimensión de la capacidad del modelo que las evaluaciones visuales estándar no capturan. Dream.exe se publicará como código abierto en https://github.com/showlab/Dream.exe.

English

Video generation models have made impressive strides in synthesizing visually compelling content, yet their outputs remain confined to the virtual domain. A natural question follows: how well do these models reflect the physical world when their generated videos leave the screen and enter reality? We propose robotic manipulation as a concrete, measurable window onto this question: if a model has truly internalized physical laws, the motion it depicts should translate into executable robot behavior. We introduce Dream.exe, an evaluation framework that operationalizes this criterion through a video-to-execution pipeline. Given a scene image and a task description, Dream.exe synthesizes a manipulation video, converts the generated motion into robot trajectories, and executes them in a physics simulator, yielding a grounding signal that purely visual metrics cannot offer. Using this pipeline, we evaluate 8 models spanning frontier closed-source generators, open-source generators, and robot-specific models. Our benchmark covers 101 manually curated manipulation tasks at three levels of physical complexity, measured across visual quality, trajectory fidelity, and execution success. Encouragingly, several models achieve measurable execution success, suggesting that generative priors learned from internet-scale data already encode meaningful physical knowledge. Yet visual quality proves a poor predictor of executability, exposing a dimension of model capability that standard visual evaluations do not capture. Dream.exe will be open-sourced at https://github.com/showlab/Dream.exe.