ロボット操作のためのビデオ生成学習:協調的軌道制御を用いて
Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control
June 2, 2025
著者: Xiao Fu, Xintao Wang, Xian Liu, Jianhong Bai, Runsen Xu, Pengfei Wan, Di Zhang, Dahua Lin
cs.AI
要旨
近年のビデオ拡散モデルの進展は、ロボットの意思決定データ生成において強い可能性を示しており、軌跡条件を加えることでさらに細かい制御が可能となっています。しかし、既存の軌跡ベースの手法は主に個々の物体の動きに焦点を当てており、複雑なロボット操作において重要な多物体間の相互作用を捉えることに苦戦しています。この制約は、重なり合う領域における多特徴の絡み合いから生じ、視覚的な忠実度の低下を引き起こします。この問題に対処するため、我々はRoboMasterを提案します。これは、協調的な軌跡定式化を通じて物体間のダイナミクスをモデル化する新しいフレームワークです。従来の手法が物体を分解するのとは異なり、我々のコアアイデアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用中、相互作用後)に分解することです。各ステージは、支配的な物体の特徴を用いてモデル化されます。具体的には、相互作用前と相互作用後ではロボットアームを、相互作用中では操作対象の物体を使用することで、従来の手法で相互作用中に生じる多物体特徴の融合による欠点を軽減します。さらに、ビデオ全体を通じて対象物の意味的一貫性を確保するため、物体の外観と形状を意識した潜在表現を組み込みます。挑戦的なBridge V2データセットおよび実環境評価における広範な実験により、我々の手法が既存のアプローチを上回り、軌跡制御されたロボット操作ビデオ生成において新たな最先端の性能を確立することが実証されました。
English
Recent advances in video diffusion models have demonstrated strong potential
for generating robotic decision-making data, with trajectory conditions further
enabling fine-grained control. However, existing trajectory-based methods
primarily focus on individual object motion and struggle to capture
multi-object interaction crucial in complex robotic manipulation. This
limitation arises from multi-feature entanglement in overlapping regions, which
leads to degraded visual fidelity. To address this, we present RoboMaster, a
novel framework that models inter-object dynamics through a collaborative
trajectory formulation. Unlike prior methods that decompose objects, our core
is to decompose the interaction process into three sub-stages: pre-interaction,
interaction, and post-interaction. Each stage is modeled using the feature of
the dominant object, specifically the robotic arm in the pre- and
post-interaction phases and the manipulated object during interaction, thereby
mitigating the drawback of multi-object feature fusion present during
interaction in prior work. To further ensure subject semantic consistency
throughout the video, we incorporate appearance- and shape-aware latent
representations for objects. Extensive experiments on the challenging Bridge V2
dataset, as well as in-the-wild evaluation, demonstrate that our method
outperforms existing approaches, establishing new state-of-the-art performance
in trajectory-controlled video generation for robotic manipulation.