Verso la Cognizione Corporea nei Robot attraverso Mondi Sintetici Radicati nello Spazio
Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
May 20, 2025
Autori: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI
Abstract
Presentiamo un framework concettuale per l'addestramento di Modelli Visione-Linguaggio (VLMs) per eseguire la Presa di Prospettiva Visiva (VPT), una capacità fondamentale per la cognizione incarnata essenziale nell'Interazione Uomo-Robot (HRI). Come primo passo verso questo obiettivo, introduciamo un dataset sintetico, generato in NVIDIA Omniverse, che consente l'apprendimento supervisionato per compiti di ragionamento spaziale. Ogni istanza include un'immagine RGB, una descrizione in linguaggio naturale e una matrice di trasformazione 4x4 ground-truth che rappresenta la posa dell'oggetto. Ci concentriamo sull'inferire la distanza lungo l'asse Z come abilità di base, con estensioni future mirate al ragionamento completo a 6 Gradi di Libertà (DOFs). Il dataset è pubblicamente disponibile per supportare ulteriori ricerche. Questo lavoro rappresenta un passo fondamentale verso sistemi di AI incarnata capaci di comprensione spaziale in scenari interattivi uomo-robot.
English
We present a conceptual framework for training Vision-Language Models (VLMs)
to perform Visual Perspective Taking (VPT), a core capability for embodied
cognition essential for Human-Robot Interaction (HRI). As a first step toward
this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse,
that enables supervised learning for spatial reasoning tasks. Each instance
includes an RGB image, a natural language description, and a ground-truth 4X4
transformation matrix representing object pose. We focus on inferring Z-axis
distance as a foundational skill, with future extensions targeting full 6
Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to
support further research. This work serves as a foundational step toward
embodied AI systems capable of spatial understanding in interactive human-robot
scenarios.