Robo2VLM: Risposta a Domande Visive da Dataset su Larga Scala di Manipolazione Robotica in Ambiente Reale
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
Autori: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
Abstract
I modelli Vision-Language (VLMs) acquisiscono conoscenza del mondo reale e capacità di ragionamento generale attraverso corpora di immagini e testi su scala Internet. Possono potenziare i sistemi robotici con la comprensione della scena e la pianificazione dei compiti, e assistere le politiche visuomotorie addestrate su dati di traiettoria robotica. Esploriamo il paradigma inverso: utilizzare dati ricchi, reali e multimodali di traiettoria robotica per migliorare e valutare i VLMs. In questo articolo, presentiamo Robo2VLM, un framework per la generazione di dataset di Visual Question Answering (VQA) per VLMs. Dato una traiettoria robotica teleoperata da un umano, Robo2VLM deriva la verità di base da modalità sensoriali non visive e non descrittive, come la posa dell'end-effector, l'apertura della pinza e il rilevamento della forza. Sulla base di queste modalità, segmenta la traiettoria robotica in una sequenza di fasi di manipolazione. In ogni fase, Robo2VLM utilizza la comprensione della scena e dell'interazione per identificare le proprietà 3D del robot, l'obiettivo del compito e l'oggetto target. Le proprietà vengono utilizzate per generare query VQA rappresentative - immagini con domande a scelta multipla testuali - basate su modelli di domande di ragionamento spaziale, condizionato all'obiettivo e di interazione. Abbiamo curato Robo2VLM-1, un dataset su larga scala in contesti reali con 684.710 domande che coprono 463 scene distinte e 3.396 compiti di manipolazione robotica da 176k traiettorie robotiche reali. I risultati suggeriscono che Robo2VLM-1 può valutare e migliorare le capacità dei VLMs nel ragionamento spaziale e di interazione.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.