Robo2VLM: Respuesta a Preguntas Visuales a partir de Conjuntos de Datos de Manipulación Robótica a Gran Escala en Entornos No Controlados
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
Autores: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs) adquieren conocimiento del mundo real y capacidad de razonamiento general a través de corpus de imágenes y texto a escala de Internet. Estos modelos pueden potenciar sistemas robóticos con comprensión de escenas y planificación de tareas, además de asistir políticas visuomotoras entrenadas con datos de trayectorias robóticas. Exploramos el paradigma inverso: utilizar datos ricos, reales y multimodales de trayectorias robóticas para mejorar y evaluar VLMs. En este artículo, presentamos Robo2VLM, un marco de generación de conjuntos de datos de Respuesta a Preguntas Visuales (VQA) para VLMs. Dada una trayectoria robótica teleoperada por humanos, Robo2VLM deriva la verdad fundamental (ground-truth) a partir de modalidades sensoriales no visuales y no descriptivas, como la pose del efector final, la apertura de la pinza y la detección de fuerzas. Basándose en estas modalidades, segmenta la trayectoria robótica en una secuencia de fases de manipulación. En cada fase, Robo2VLM utiliza la comprensión de la escena y la interacción para identificar propiedades 3D del robot, el objetivo de la tarea y el objeto objetivo. Estas propiedades se utilizan para generar consultas VQA representativas —imágenes con preguntas de opción múltiple textual— basadas en plantillas de preguntas de razonamiento espacial, condicionado por objetivos y de interacción. Creamos Robo2VLM-1, un conjunto de datos a gran escala en entornos reales con 684,710 preguntas que cubren 463 escenas distintas y 3,396 tareas de manipulación robótica derivadas de 176k trayectorias robóticas reales. Los resultados sugieren que Robo2VLM-1 puede evaluar y mejorar las capacidades de los VLMs en razonamiento espacial y de interacción.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.Summary
AI-Generated Summary