3DFlowAction: 3Dフロー世界からのクロスエンボディメント操作学習モデル
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model
June 6, 2025
著者: Hongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan
cs.AI
要旨
ロボットにとって、操作は長らく困難な課題であり続けてきました。一方で人間は、マグラックにカップを掛けるといった複雑な物体との相互作用を容易に行うことができます。その主な理由は、ロボットに操作スキルを教えるための大規模で統一されたデータセットが不足していることです。現在のロボットデータセットは、単純なシーン内で異なるアクション空間におけるロボットの動作を記録することが多く、これにより、異なるロボットが多様なシーンで統一された堅牢なアクション表現を学ぶことが妨げられています。人間が操作タスクをどのように理解するかを観察すると、物体が3D空間内でどのように動くべきかを理解することが、行動を導くための重要な手がかりであることがわかります。この手がかりは、具現化に依存せず、人間と異なるロボットの両方に適しています。これに着想を得て、我々は人間とロボットの操作データから3Dフローワールドモデルを学習することを目指しています。このモデルは、3D空間内で相互作用する物体の将来の動きを予測し、操作のためのアクションプランニングを導きます。具体的には、移動物体自動検出パイプラインを通じて、ManiFlow-110kという大規模な3Dオプティカルフローデータセットを合成します。次に、ビデオ拡散ベースのワールドモデルがこれらのデータから操作の物理を学習し、言語指示に基づいて3Dオプティカルフローの軌跡を生成します。生成された3D物体オプティカルフローを用いて、フローガイドレンダリングメカニズムを提案します。このメカニズムは、予測された最終状態をレンダリングし、GPT-4oを活用して予測されたフローがタスクの説明と一致するかどうかを評価します。これにより、ロボットに閉ループプランニング能力を備えさせます。最後に、予測された3Dオプティカルフローを最適化ポリシーの制約条件として考慮し、操作のための一連のロボットアクションを決定します。広範な実験により、多様なロボット操作タスクにおける強力な汎化能力と、ハードウェア固有のトレーニングなしでの信頼性の高いクロスエンボディメント適応が実証されています。
English
Manipulation has long been a challenging task for robots, while humans can
effortlessly perform complex interactions with objects, such as hanging a cup
on the mug rack. A key reason is the lack of a large and uniform dataset for
teaching robots manipulation skills. Current robot datasets often record robot
action in different action spaces within a simple scene. This hinders the robot
to learn a unified and robust action representation for different robots within
diverse scenes. Observing how humans understand a manipulation task, we find
that understanding how the objects should move in the 3D space is a critical
clue for guiding actions. This clue is embodiment-agnostic and suitable for
both humans and different robots. Motivated by this, we aim to learn a 3D flow
world model from both human and robot manipulation data. This model predicts
the future movement of the interacting objects in 3D space, guiding action
planning for manipulation. Specifically, we synthesize a large-scale 3D optical
flow dataset, named ManiFlow-110k, through a moving object auto-detect
pipeline. A video diffusion-based world model then learns manipulation physics
from these data, generating 3D optical flow trajectories conditioned on
language instructions. With the generated 3D object optical flow, we propose a
flow-guided rendering mechanism, which renders the predicted final state and
leverages GPT-4o to assess whether the predicted flow aligns with the task
description. This equips the robot with a closed-loop planning ability.
Finally, we consider the predicted 3D optical flow as constraints for an
optimization policy to determine a chunk of robot actions for manipulation.
Extensive experiments demonstrate strong generalization across diverse robotic
manipulation tasks and reliable cross-embodiment adaptation without
hardware-specific training.