Robo2VLM: Visuelle Fragebeantwortung aus groß angelegten Robotermanipulationsdatensätzen in realen Umgebungen
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
Autoren: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
Zusammenfassung
Vision-Language Models (VLMs) erwerben Wissen über die reale Welt und allgemeine Fähigkeiten zur logischen Schlussfolgerung durch internetgroße Bild-Text-Korpora. Sie können Robotersysteme mit Szenenverständnis und Aufgabenplanung erweitern und visuomotorische Strategien unterstützen, die auf Roboter-Trajektorien-Daten trainiert werden. Wir untersuchen das umgekehrte Paradigma – die Verwendung von umfangreichen, realen, multimodalen Roboter-Trajektorien-Daten zur Verbesserung und Bewertung von VLMs. In diesem Artikel stellen wir Robo2VLM vor, ein Framework zur Generierung von Visual Question Answering (VQA)-Datensätzen für VLMs. Basierend auf einer menschlich teleoperierten Roboter-Trajektorie leitet Robo2VLM Ground-Truth-Daten aus nicht-visuellen und nicht-deskriptiven sensorischen Modalitäten ab, wie Endeffektor-Position, Greiferöffnung und Kraftsensorik. Anhand dieser Modalitäten segmentiert es die Roboter-Trajektorie in eine Abfolge von Manipulationsphasen. In jeder Phase nutzt Robo2VLM Szenen- und Interaktionsverständnis, um 3D-Eigenschaften des Roboters, das Aufgaben-Ziel und das Zielobjekt zu identifizieren. Diese Eigenschaften werden verwendet, um repräsentative VQA-Abfragen zu generieren – Bilder mit textbasierten Multiple-Choice-Fragen – basierend auf räumlichen, zielbedingten und interaktionsbezogenen Fragevorlagen. Wir haben Robo2VLM-1 kuratiert, einen groß angelegten Datensatz aus der Praxis mit 684.710 Fragen, die 463 verschiedene Szenen und 3.396 Roboter-Manipulationsaufgaben aus 176.000 realen Roboter-Trajektorien abdecken. Die Ergebnisse deuten darauf hin, dass Robo2VLM-1 die Fähigkeiten von VLMs in Bezug auf räumliches und interaktives Schlussfolgern bewerten und verbessern kann.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.Summary
AI-Generated Summary