Dream2Flow: Conectando la Generación de Videos y la Manipulación de Mundos Abiertos con Flujo de Objetos 3D
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
December 31, 2025
Autores: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI
Resumen
La modelización generativa de video ha surgido como una herramienta convincente para razonar en modo zero-shot sobre interacciones físicas plausibles en la manipulación de entornos de mundo abierto. Sin embargo, traducir dichos movimientos guiados por humanos a las acciones de bajo nivel que requieren los sistemas robóticos sigue siendo un desafío. Observamos que, dada una imagen inicial y una instrucción de tarea, estos modelos sobresalen en sintetizar movimientos de objetos sensatos. Por ello, presentamos Dream2Flow, un marco que conecta la generación de video y el control robótico mediante el flujo de objetos 3D como representación intermedia. Nuestro método reconstruye movimientos 3D de objetos a partir de videos generados y formula la manipulación como un seguimiento de trayectorias de objetos. Al separar los cambios de estado de los actuadores que materializan dichos cambios, Dream2Flow supera la brecha de encarnación y permite una guía zero-shot a partir de modelos de video preentrenados para manipular objetos de diversas categorías, incluyendo rígidos, articulados, deformables y granulares. Mediante optimización de trayectorias o aprendizaje por refuerzo, Dream2Flow convierte el flujo de objetos 3D reconstruido en comandos de bajo nivel ejecutables sin necesidad de demostraciones específicas por tarea. Experimentos en simulación y en el mundo real destacan el flujo de objetos 3D como una interfaz general y escalable para adaptar modelos de generación de video a la manipulación robótica en mundo abierto. Los videos y visualizaciones están disponibles en https://dream2flow.github.io/.
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.