Dream2Flow: 3Dオブジェクトフローによるビデオ生成とオープンワールド操作の統合
Dream2Flow: Bridging Video Generation and Open-World Manipulation with 3D Object Flow
December 31, 2025
著者: Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, Li Fei-Fei, Ruohan Zhang
cs.AI
要旨
生成的ビデオモデリングは、オープンワールドにおける操作のための物理的相互作用をゼロショット推論する有力なツールとして登場している。しかし、このような人間主導の動作をロボットシステムが要求する低レベルのアクションに変換することは依然として課題である。我々は、初期画像とタスク指示が与えられた場合、これらのモデルが妥当な物体運動を合成することに優れていることを観察した。そこで本論文では、ビデオ生成とロボット制御を3次元物体フローを中間表現として橋渡しするフレームワーク、Dream2Flowを提案する。本手法は、生成されたビデオから3次元物体運動を再構築し、操作を物体軌道追跡問題として定式化する。状態変化とその変化を実現するアクチュエータを分離することにより、Dream2Flowはエンボディメントギャップを克服し、事前学習済みビデオモデルからのゼロショット指導により、剛体、関節構造体、変形体、粒状体など多様なカテゴリの物体を操作することを可能にする。軌道最適化または強化学習を通じて、Dream2Flowは再構築された3次元物体フローを、タスク固有の実演データなしで実行可能な低レベルコマンドに変換する。シミュレーションおよび実世界実験により、3次元物体フローがビデオ生成モデルをオープンワールドロボット操作に適応させるための汎用的かつスケーラブルなインターフェースとして有効であることが示された。ビデオおよび可視化結果はhttps://dream2flow.github.io/で公開されている。
English
Generative video modeling has emerged as a compelling tool to zero-shot reason about plausible physical interactions for open-world manipulation. Yet, it remains a challenge to translate such human-led motions into the low-level actions demanded by robotic systems. We observe that given an initial image and task instruction, these models excel at synthesizing sensible object motions. Thus, we introduce Dream2Flow, a framework that bridges video generation and robotic control through 3D object flow as an intermediate representation. Our method reconstructs 3D object motions from generated videos and formulates manipulation as object trajectory tracking. By separating the state changes from the actuators that realize those changes, Dream2Flow overcomes the embodiment gap and enables zero-shot guidance from pre-trained video models to manipulate objects of diverse categories-including rigid, articulated, deformable, and granular. Through trajectory optimization or reinforcement learning, Dream2Flow converts reconstructed 3D object flow into executable low-level commands without task-specific demonstrations. Simulation and real-world experiments highlight 3D object flow as a general and scalable interface for adapting video generation models to open-world robotic manipulation. Videos and visualizations are available at https://dream2flow.github.io/.