Robo2VLM: Resposta a Perguntas Visuais a partir de Grandes Conjuntos de Dados de Manipulação Robótica em Ambientes Reais
Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets
May 21, 2025
Autores: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) adquirem conhecimento do mundo real e capacidade de raciocínio geral por meio de corpora de imagem-texto em escala da internet. Eles podem aprimorar sistemas robóticos com compreensão de cena e planejamento de tarefas, além de auxiliar políticas visuomotoras treinadas em dados de trajetórias robóticas. Exploramos o paradigma inverso - utilizando dados ricos, reais e multimodais de trajetórias robóticas para aprimorar e avaliar VLMs. Neste artigo, apresentamos Robo2VLM, um framework de geração de conjuntos de dados de Resposta a Perguntas Visuais (VQA) para VLMs. Dada uma trajetória robótica teleoperada por humanos, o Robo2VLM deriva a verdade fundamental a partir de modalidades sensoriais não visuais e não descritivas, como a pose do efetuador final, a abertura da garra e a detecção de força. Com base nessas modalidades, ele segmenta a trajetória robótica em uma sequência de fases de manipulação. Em cada fase, o Robo2VLM utiliza a compreensão da cena e da interação para identificar propriedades 3D do robô, o objetivo da tarefa e o objeto alvo. Essas propriedades são usadas para gerar consultas VQA representativas - imagens com perguntas de múltipla escolha textuais - com base em modelos de perguntas de raciocínio espacial, condicionado ao objetivo e de interação. Criamos o Robo2VLM-1, um conjunto de dados em grande escala no mundo real com 684.710 perguntas, abrangendo 463 cenas distintas e 3.396 tarefas de manipulação robótica a partir de 176 mil trajetórias robóticas reais. Os resultados sugerem que o Robo2VLM-1 pode avaliar e melhorar as capacidades dos VLMs em raciocínio espacial e de interação.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general
reasoning ability through Internet-scale image-text corpora. They can augment
robotic systems with scene understanding and task planning, and assist
visuomotor policies that are trained on robot trajectory data. We explore the
reverse paradigm - using rich, real, multi-modal robot trajectory data to
enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual
Question Answering (VQA) dataset generation framework for VLMs. Given a human
tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual
and non-descriptive sensory modalities, such as end-effector pose, gripper
aperture, and force sensing. Based on these modalities, it segments the robot
trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses
scene and interaction understanding to identify 3D properties of the robot,
task goal, and the target object. The properties are used to generate
representative VQA queries - images with textural multiple-choice questions -
based on spatial, goal-conditioned, and interaction reasoning question
templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710
questions covering 463 distinct scenes and 3,396 robotic manipulation tasks
from 176k real robot trajectories. Results suggest that Robo2VLM-1 can
benchmark and improve VLM capabilities in spatial and interaction reasoning.