Dream2Flow: Overbrugging van Videogeneratie en Open-Wereldmanipulatie met 3D Object Flow
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
December 31, 2025
Auteurs: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI
Samenvatting
Generatief videomodelleren is naar voren gekomen als een overtuigend hulpmiddel om zero-shot te redeneren over plausibele fysieke interacties voor manipulatie in een open wereld. Desalniettemin blijft het een uitdaging om dergelijke door mensen geleide bewegingen om te zetten in de laag-niveau acties die door robotsystemen worden vereist. Wij observeren dat, gegeven een initiële afbeelding en een taakinstructie, deze modellen uitblinken in het synthetiseren van zinvolle objectbewegingen. Daarom introduceren wij Dream2Flow, een raamwerk dat videogeneratie en robotbesturing verbindt via 3D-objectstroom als een tussenvoorstelling. Onze methode reconstrueert 3D-objectbewegingen uit gegenereerde video's en formuleert manipulatie als het volgen van objecttrajecten. Door de toestandsveranderingen te scheiden van de actuatoren die deze veranderingen realiseren, overbrugt Dream2Flow de embodimentkloof en maakt het zero-shot-sturing mogelijk door vooraf getrainde videomodellen om objecten van uiteenlopende categorieën te manipuleren - inclusief rigide, gearticuleerde, vervormbare en granulaire objecten. Via trajectoptimalisatie of reinforcement learning zet Dream2Flow gereconstrueerde 3D-objectstroom om in uitvoerbare laag-niveau commando's zonder taakspecifieke demonstraties. Simulatie- en experimenten in de echte wereld benadrukken 3D-objectstroom als een algemeen en schaalbaar interface voor het aanpassen van videogeneratiemodellen voor robotmanipulatie in een open wereld. Video's en visualisaties zijn beschikbaar op https://dream2flow.github.io/.
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.