Dream2Flow: Collegare la generazione video e la manipolazione del mondo aperto con il flusso di oggetti 3D

Abstract

La modellazione video generativa è emersa come uno strumento convincente per ragionare in modo zero-shot su interazioni fisiche plausibili per la manipolazione in mondi aperti. Tuttavia, rimane una sfida tradurre tali movimenti guidati dall'uomo nelle azioni di basso livello richieste dai sistemi robotici. Osserviamo che, data un'immagine iniziale e un'istruzione per il compito, questi modelli eccellono nel sintetizzare movimenti oggettuali sensati. Introduciamo quindi Dream2Flow, un framework che collega la generazione video e il controllo robotico attraverso il flusso oggettuale 3D come rappresentazione intermedia. Il nostro metodo ricostruisce i movimenti oggettuali 3D da video generati e formula la manipolazione come un tracking di traiettorie oggettuali. Separando i cambiamenti di stato dagli attuatori che realizzano tali cambiamenti, Dream2Flow supera il divario di embodiement e abilita una guida zero-shot da modelli video pre-addestrati per manipolare oggetti di diverse categorie, inclusi oggetti rigidi, articolati, deformabili e granulari. Attraverso l'ottimizzazione di traiettorie o il reinforcement learning, Dream2Flow converte il flusso oggettuale 3D ricostruito in comandi di basso livello eseguibili, senza dimostrazioni specifiche per il compito. Esperimenti in simulazione e nel mondo reale evidenziano il flusso oggettuale 3D come un'interfaccia generale e scalabile per adattare modelli di generazione video alla manipolazione robotica in mondi aperti. Video e visualizzazioni sono disponibili su https://dream2flow.github.io/.

English

Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.

Dream2Flow: Collegare la generazione video e la manipolazione del mondo aperto con il flusso di oggetti 3D

Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

Abstract

Support