Robo2VLM:大規模実世界ロボット操作データセットからの視覚的質問応答
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
著者: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
要旨
ビジョン・ランゲージモデル(VLMs)は、インターネット規模の画像-テキストコーパスを通じて現実世界の知識と一般的な推論能力を獲得します。これらは、シーン理解とタスク計画をロボットシステムに強化し、ロボット軌跡データで訓練された視覚運動ポリシーを支援することができます。本研究では、その逆のパラダイム、つまり豊富で現実的なマルチモーダルなロボット軌跡データを使用してVLMsを強化・評価する方法を探ります。本論文では、VLMsのためのVisual Question Answering(VQA)データセット生成フレームワークであるRobo2VLMを紹介します。人間による遠隔操作ロボット軌跡が与えられると、Robo2VLMは、エンドエフェクタの姿勢、グリッパーの開口度、力センシングなどの非視覚的かつ非記述的なセンサーモダリティからグラウンドトゥルースを導出します。これらのモダリティに基づいて、ロボット軌跡を一連の操作フェーズに分割します。各フェーズで、Robo2VLMはシーンと相互作用の理解を使用して、ロボットの3D特性、タスク目標、およびターゲットオブジェクトを識別します。これらの特性は、空間的、目標条件付き、および相互作用推論の質問テンプレートに基づいて、代表的なVQAクエリ(テキスト付きの多肢選択問題を含む画像)を生成するために使用されます。我々は、176kの実ロボット軌跡から684,710の質問をカバーし、463の異なるシーンと3,396のロボット操作タスクを含む大規模な実世界データセットであるRobo2VLM-1をキュレーションしました。結果は、Robo2VLM-1が空間的および相互作用推論におけるVLMの能力をベンチマークし、向上させることができることを示唆しています。
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.Summary
AI-Generated Summary