Dream2Flow : Relier la génération vidéo et la manipulation en monde ouvert par le flux d'objets 3D
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
December 31, 2025
papers.authors: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI
papers.abstract
La modélisation générative vidéo est apparue comme un outil convaincant pour raisonner à zéro-shot sur les interactions physiques plausibles dans le contexte de la manipulation en monde ouvert. Cependant, traduire ces mouvements dirigés par l'humain en actions de bas niveau exigées par les systèmes robotiques reste un défi. Nous observons que, étant donné une image initiale et une consigne de tâche, ces modèles excellent à synthétiser des mouvements d'objets sensés. Ainsi, nous présentons Dream2Flow, un cadre qui fait le lien entre la génération vidéo et le contrôle robotique via le flux d'objets 3D comme représentation intermédiaire. Notre méthode reconstruit les mouvements d'objets 3D à partir de vidéos générées et formule la manipulation comme un suivi de trajectoire d'objet. En séparant les changements d'état des actionneurs qui réalisent ces changements, Dream2Flow surmonte le fossé de l'incarnation et permet un guidage à zéro-shot à partir de modèles vidéo pré-entraînés pour manipuler des objets de catégories diverses, y compris rigides, articulés, déformables et granulaires. Grâce à l'optimisation de trajectoire ou à l'apprentissage par renforcement, Dream2Flow convertit le flux d'objets 3D reconstruit en commandes de bas niveau exécutables sans démonstrations spécifiques à la tâche. Les expériences en simulation et dans le monde réel soulignent le flux d'objets 3D comme une interface générale et évolutive pour adapter les modèles de génération vidéo à la manipulation robotique en monde ouvert. Les vidéos et visualisations sont disponibles à l'adresse https://dream2flow.github.io/.
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.