Robo2VLM: Визуальный вопросно-ответный анализ на основе крупномасштабных наборов данных о манипуляциях роботов в реальных условиях
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
Авторы: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
Аннотация
Модели "Визия-Язык" (VLMs) приобретают знания о реальном мире и способность к общему рассуждению через корпуса изображений и текстов интернет-масштаба. Они могут дополнять роботизированные системы пониманием сцены и планированием задач, а также помогать визомоторным политикам, обученным на данных траекторий роботов. Мы исследуем обратную парадигму — использование богатых, реальных, многомодальных данных траекторий роботов для улучшения и оценки VLMs. В этой статье мы представляем Robo2VLM, фреймворк для генерации набора данных "Визуальный вопрос-ответ" (VQA) для VLMs. Для заданной траектории робота, управляемого человеком, Robo2VLM извлекает истинные данные из невизуальных и неописательных сенсорных модальностей, таких как поза конечного эффектора, раскрытие захвата и сенсорное усилие. На основе этих модальностей он сегментирует траекторию робота в последовательность фаз манипуляции. На каждой фазе Robo2VLM использует понимание сцены и взаимодействия для определения 3D-свойств робота, цели задачи и целевого объекта. Эти свойства используются для генерации репрезентативных запросов VQA — изображений с текстовыми вопросами с множественным выбором — на основе шаблонов вопросов, связанных с пространственным, целевым и интерактивным рассуждением. Мы создаем Robo2VLM-1, крупномасштабный набор данных "в реальных условиях" с 684,710 вопросами, охватывающими 463 различные сцены и 3,396 задач роботизированной манипуляции из 176k реальных траекторий роботов. Результаты показывают, что Robo2VLM-1 может служить эталоном и улучшать возможности VLMs в пространственном и интерактивном рассуждении.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.Summary
AI-Generated Summary