Robo2VLM: Visuele Vraagbeantwoording op Basis van Grootschalige Robotmanipulatiedatasets uit de Praktijk
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
Auteurs: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
Samenvatting
Vision-Language Models (VLMs) verwerven kennis van de echte wereld en algemene redeneervaardigheden via internet-schaal beeld-tekst corpora. Ze kunnen robotsystemen versterken met scènebegrip en taakplanning, en visuomotorische beleidsregels ondersteunen die getraind zijn op robottrajectoriedata. Wij onderzoeken het omgekeerde paradigma - het gebruik van rijke, echte, multimodale robottrajectoriedata om VLMs te verbeteren en te evalueren. In dit artikel presenteren we Robo2VLM, een Visual Question Answering (VQA) datasetgeneratieframework voor VLMs. Gegeven een door een mens tele-geoperateerd robottraject, leidt Robo2VLM de grondwaarheid af van niet-visuele en niet-beschrijvende sensorische modaliteiten, zoals de pose van de eindeffector, de grijperopening en krachtsensoren. Op basis van deze modaliteiten segmenteren we het robottraject in een reeks manipulatie fasen. In elke fase gebruikt Robo2VLM scène- en interactiebegrip om 3D-eigenschappen van de robot, het taakdoel en het doelobject te identificeren. Deze eigenschappen worden gebruikt om representatieve VQA-vragen te genereren - afbeeldingen met tekstuele meerkeuzevragen - gebaseerd op ruimtelijke, doelgerichte en interactieredeneringsvraagsjablonen. We hebben Robo2VLM-1 samengesteld, een grootschalige in-the-wild dataset met 684.710 vragen die 463 verschillende scènes en 3.396 robotmanipulatietaken beslaan, afkomstig van 176k echte robottrajectorieën. De resultaten suggereren dat Robo2VLM-1 de mogelijkheden van VLMs in ruimtelijke en interactieredenering kan benchmarken en verbeteren.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.