Naar belichaamde cognitie in robots via ruimtelijk verankerde synthetische werelden
Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
May 20, 2025
Auteurs: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI
Samenvatting
We presenteren een conceptueel raamwerk voor het trainen van Vision-Language Models (VLMs) om Visual Perspective Taking (VPT) uit te voeren, een kernvaardigheid voor belichaamde cognitie die essentieel is voor Human-Robot Interaction (HRI). Als eerste stap naar dit doel introduceren we een synthetische dataset, gegenereerd in NVIDIA Omniverse, die supervised learning mogelijk maakt voor ruimtelijke redeneertaken. Elke instantie omvat een RGB-afbeelding, een beschrijving in natuurlijke taal en een ground-truth 4x4 transformatiematrix die de objectpose weergeeft. We richten ons op het afleiden van de Z-afstand als een fundamentele vaardigheid, met toekomstige uitbreidingen gericht op volledige 6 Degrees Of Freedom (DOFs) redenering. De dataset is publiekelijk beschikbaar om verder onderzoek te ondersteunen. Dit werk dient als een fundamentele stap naar belichaamde AI-systemen die in staat zijn tot ruimtelijk begrip in interactieve mens-robotscenario's.
English
We present a conceptual framework for training Vision-Language Models (VLMs)
to perform Visual Perspective Taking (VPT), a core capability for embodied
cognition essential for Human-Robot Interaction (HRI). As a first step toward
this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse,
that enables supervised learning for spatial reasoning tasks. Each instance
includes an RGB image, a natural language description, and a ground-truth 4X4
transformation matrix representing object pose. We focus on inferring Z-axis
distance as a foundational skill, with future extensions targeting full 6
Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to
support further research. This work serves as a foundational step toward
embodied AI systems capable of spatial understanding in interactive human-robot
scenarios.Summary
AI-Generated Summary