Dream2Flow: Überbrückung von Videogenerierung und Open-World-Manipulation durch 3D-Objektfluss
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
December 31, 2025
papers.authors: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI
papers.abstract
Generative Videomodellierung hat sich als vielversprechendes Werkzeug erwiesen, um nullschrittig plausible physikalische Interaktionen für Open-World-Manipulationen zu erfassen. Es bleibt jedoch eine Herausforderung, solche menschengesteuerten Bewegungen in die niedrigstufigen Aktionen zu übersetzen, die von Robotersystemen benötigt werden. Wir beobachten, dass diese Modelle bei der Synthese sinnvoller Objektbewegungen exzellieren, wenn ein Ausgangsbild und eine Aufgabenbeschreibung gegeben sind. Daher stellen wir Dream2Flow vor, ein Framework, das Videogenerierung und Robotiksteuerung durch 3D-Objektfluss als Zwischenrepräsentation verbindet. Unsere Methode rekonstruiert 3D-Objektbewegungen aus generierten Videos und formuliert Manipulation als Objekttrajektorienverfolgung. Indem Zustandsänderungen von den Aktuatoren getrennt werden, die diese Veränderungen realisieren, überwindet Dream2Flow den Embodiment-Gap und ermöglicht nullschrittige Steuerung durch vortrainierte Videomodelle zur Manipulation von Objekten verschiedenster Kategorien – einschließlich starrer, artikulierter, deformierbarer und granularer Objekte. Durch Trajektorienoptimierung oder bestärkendes Lernen wandelt Dream2Flow rekonstruierte 3D-Objektflüsse in ausführbare Low-Level-Befehle um, ohne auf aufgabenspezifische Demonstrationen angewiesen zu sein. Simulations- und Realweltexperimente zeigen, dass 3D-Objektfluss eine allgemeine und skalierbare Schnittstelle darstellt, um Videogenerierungsmodelle für Open-World-Robotermanipulation zu adaptieren. Videos und Visualisierungen sind unter https://dream2flow.github.io/ verfügbar.
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.