ChatPaper.aiChatPaper

Robo2VLM: 대규모 실세계 로봇 조작 데이터셋을 활용한 시각 질의응답

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

May 21, 2025
저자: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Ken Goldberg
cs.AI

초록

비전-언어 모델(VLMs)은 인터넷 규모의 이미지-텍스트 코퍼스를 통해 실세계 지식과 일반적인 추론 능력을 습득합니다. 이러한 모델은 장면 이해와 작업 계획을 통해 로봇 시스템을 강화하고, 로봇 궤적 데이터로 훈련된 시각운동 정책을 지원할 수 있습니다. 본 연구에서는 반대의 패러다임을 탐구합니다. 즉, 풍부하고 실제적인 다중 모달 로봇 궤적 데이터를 사용하여 VLMs을 향상시키고 평가하는 것입니다. 이 논문에서는 VLMs을 위한 시각 질의 응답(VQA) 데이터셋 생성 프레임워크인 Robo2VLM을 소개합니다. 인간이 원격으로 조작한 로봇 궤적이 주어지면, Robo2VLM은 엔드 이펙터 포즈, 그리퍼 개폐, 힘 센싱과 같은 비시각적이고 비서술적인 감각 모달리티로부터 실측값을 도출합니다. 이러한 모달리티를 기반으로 로봇 궤적을 조작 단계의 시퀀스로 분할합니다. 각 단계에서 Robo2VLM은 장면 및 상호작용 이해를 통해 로봇의 3D 속성, 작업 목표, 그리고 대상 물체를 식별합니다. 이러한 속성들은 공간적, 목표 조건적, 상호작용 추론 질문 템플릿을 기반으로 대표적인 VQA 쿼리(이미지와 텍스트 다중 선택 질문)를 생성하는 데 사용됩니다. 우리는 176,000개의 실제 로봇 궤적에서 463개의 독특한 장면과 3,396개의 로봇 조작 작업을 포함하는 684,710개의 질문으로 구성된 대규모 실세계 데이터셋인 Robo2VLM-1을 구축했습니다. 결과는 Robo2VLM-1이 공간 및 상호작용 추론에서 VLM의 능력을 벤치마킹하고 개선할 수 있음을 시사합니다.
English
Vision-Language Models (VLMs) acquire real-world knowledge and general reasoning ability through Internet-scale image-text corpora. They can augment robotic systems with scene understanding and task planning, and assist visuomotor policies that are trained on robot trajectory data. We explore the reverse paradigm - using rich, real, multi-modal robot trajectory data to enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual Question Answering (VQA) dataset generation framework for VLMs. Given a human tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual and non-descriptive sensory modalities, such as end-effector pose, gripper aperture, and force sensing. Based on these modalities, it segments the robot trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses scene and interaction understanding to identify 3D properties of the robot, task goal, and the target object. The properties are used to generate representative VQA queries - images with textural multiple-choice questions - based on spatial, goal-conditioned, and interaction reasoning question templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710 questions covering 463 distinct scenes and 3,396 robotic manipulation tasks from 176k real robot trajectories. Results suggest that Robo2VLM-1 can benchmark and improve VLM capabilities in spatial and interaction reasoning.

Summary

AI-Generated Summary

PDF32May 23, 2025