Dream2Flow: Conectando Geração de Vídeo e Manipulação em Mundo Aberto com Fluxo de Objetos 3D

Resumo

A modelagem generativa de vídeo emergiu como uma ferramenta convincente para raciocínio zero-shot sobre interações físicas plausíveis em manipulação de mundo aberto. No entanto, permanece um desafio traduzir tais movimentos guiados por humanos nas ações de baixo nível exigidas por sistemas robóticos. Observamos que, dada uma imagem inicial e uma instrução de tarefa, esses modelos se destacam em sintetizar movimentos sensatos de objetos. Assim, introduzimos o Dream2Flow, uma estrutura que conecta a geração de vídeo e o controle robótico através do fluxo de objetos 3D como uma representação intermediária. Nosso método reconstrói movimentos 3D de objetos a partir de vídeos gerados e formula a manipulação como um rastreamento de trajetória de objetos. Ao separar as mudanças de estado dos atuadores que realizam essas mudanças, o Dream2Flow supera a lacuna de embodimento e permite orientação zero-shot a partir de modelos de vídeo pré-treinados para manipular objetos de diversas categorias - incluindo rígidos, articulados, deformáveis e granulares. Através de otimização de trajetória ou aprendizado por reforço, o Dream2Flow converte o fluxo de objetos 3D reconstruído em comandos de baixo nível executáveis, sem demonstrações específicas da tarefa. Experimentos em simulação e no mundo real destacam o fluxo de objetos 3D como uma interface geral e escalável para adaptar modelos de geração de vídeo à manipulação robótica de mundo aberto. Vídeos e visualizações estão disponíveis em https://dream2flow.github.io/.

English

Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.

Dream2Flow: Conectando Geração de Vídeo e Manipulação em Mundo Aberto com Fluxo de Objetos 3D

Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow

Resumo

Support