Robo2VLM: Visuele Vraagbeantwoording op Basis van Grootschalige Robotmanipulatiedatasets uit de Praktijk

Samenvatting

Vision-Language Models (VLMs) verwerven kennis van de echte wereld en algemene redeneervaardigheden via internet-schaal beeld-tekst corpora. Ze kunnen robotsystemen versterken met scènebegrip en taakplanning, en visuomotorische beleidsregels ondersteunen die getraind zijn op robottrajectoriedata. Wij onderzoeken het omgekeerde paradigma - het gebruik van rijke, echte, multimodale robottrajectoriedata om VLMs te verbeteren en te evalueren. In dit artikel presenteren we Robo2VLM, een Visual Question Answering (VQA) datasetgeneratieframework voor VLMs. Gegeven een door een mens tele-geoperateerd robottraject, leidt Robo2VLM de grondwaarheid af van niet-visuele en niet-beschrijvende sensorische modaliteiten, zoals de pose van de eindeffector, de grijperopening en krachtsensoren. Op basis van deze modaliteiten segmenteren we het robottraject in een reeks manipulatie fasen. In elke fase gebruikt Robo2VLM scène- en interactiebegrip om 3D-eigenschappen van de robot, het taakdoel en het doelobject te identificeren. Deze eigenschappen worden gebruikt om representatieve VQA-vragen te genereren - afbeeldingen met tekstuele meerkeuzevragen - gebaseerd op ruimtelijke, doelgerichte en interactieredeneringsvraagsjablonen. We hebben Robo2VLM-1 samengesteld, een grootschalige in-the-wild dataset met 684.710 vragen die 463 verschillende scènes en 3.396 robotmanipulatietaken beslaan, afkomstig van 176k echte robottrajectorieën. De resultaten suggereren dat Robo2VLM-1 de mogelijkheden van VLMs in ruimtelijke en interactieredenering kan benchmarken en verbeteren.

English

Vision-Language Models (VLMs) acquire real-world knowledge and general reasoning ability through Internet-scale image-text corpora. They can augment robotic systems with scene understanding and task planning, and assist visuomotor policies that are trained on robot trajectory data. We explore the reverse paradigm - using rich, real, multi-modal robot trajectory data to enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual Question Answering (VQA) dataset generation framework for VLMs. Given a human tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual and non-descriptive sensory modalities, such as end-effector pose, gripper aperture, and force sensing. Based on these modalities, it segments the robot trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses scene and interaction understanding to identify 3D properties of the robot, task goal, and the target object. The properties are used to generate representative VQA queries - images with textural multiple-choice questions - based on spatial, goal-conditioned, and interaction reasoning question templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710 questions covering 463 distinct scenes and 3,396 robotic manipulation tasks from 176k real robot trajectories. Results suggest that Robo2VLM-1 can benchmark and improve VLM capabilities in spatial and interaction reasoning.

Robo2VLM: Visuele Vraagbeantwoording op Basis van Grootschalige Robotmanipulatiedatasets uit de Praktijk

Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

Samenvatting

Support