RoboVIP: 視覚的アイデンティティプロンプトによるマルチビュー動画生成がロボットマニピュレーションを拡張
RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation
January 8, 2026
著者: Boyang Wang, Haoran Zhang, Shujie Zhang, Jinkun Hao, Mingda Jia, Qi Lv, Yucheng Mao, Zhaoyang Lyu, Jia Zeng, Xudong Xu, Jiangmiao Pang
cs.AI
要旨
操作データの多様性、量、質は、効果的なロボット方策を訓練する上で極めて重要である。しかし、ハードウェリや物理的セットアップの制約により、多様な環境にわたる大規模な実世界操作データの収集は、拡張が困難な状況が続いている。最近の研究では、テキストプロンプトを条件付きとした画像拡散モデルを用いて、視覚観測における背景や卓上オブジェクトを変更することで操作データの拡張が行われている。しかし、これらの手法は、最先端の方策モデルが要求するマルチビューおよび時間的一貫性のある観測という実用的な必要性を見落としがちである。さらに、テキストプロンプトのみではシーンセットアップを確実に指定することはできない。拡散モデルに明示的な視覚的ガイダンスを提供するため、我々は視覚的アイデンティティプロンプトを導入し、所望のシーンセットアップを生成するための条件付け入力として模範画像を提供する。この目的のために、大規模なロボティクスデータセットから視覚的アイデンティティプールを構築するスケーラブルなパイプラインも構築した。拡張された操作データを用いて下流の視覚-言語-行動モデルおよび視覚運動方策モデルを訓練すると、シミュレーションと実ロボット環境の両方で一貫した性能向上が得られる。
English
The diversity, quantity, and quality of manipulation data are critical for training effective robot policies. However, due to hardware and physical setup constraints, collecting large-scale real-world manipulation data remains difficult to scale across diverse environments. Recent work uses text-prompt conditioned image diffusion models to augment manipulation data by altering the backgrounds and tabletop objects in the visual observations. However, these approaches often overlook the practical need for multi-view and temporally coherent observations required by state-of-the-art policy models. Further, text prompts alone cannot reliably specify the scene setup. To provide the diffusion model with explicit visual guidance, we introduce visual identity prompting, which supplies exemplar images as conditioning inputs to guide the generation of the desired scene setup. To this end, we also build a scalable pipeline to curate a visual identity pool from large robotics datasets. Using our augmented manipulation data to train downstream vision-language-action and visuomotor policy models yields consistent performance gains in both simulation and real-robot settings.