Vers une cognition incarnée chez les robots via des mondes synthétiques spatialement ancrés
Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
May 20, 2025
Auteurs: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI
Résumé
Nous présentons un cadre conceptuel pour entraîner des modèles vision-langage (VLMs) à réaliser la prise de perspective visuelle (VPT), une capacité fondamentale pour la cognition incarnée essentielle à l'interaction humain-robot (HRI). Comme première étape vers cet objectif, nous introduisons un ensemble de données synthétiques, généré dans NVIDIA Omniverse, qui permet un apprentissage supervisé pour des tâches de raisonnement spatial. Chaque instance comprend une image RGB, une description en langage naturel et une matrice de transformation 4x4 représentant la pose d'un objet comme vérité terrain. Nous nous concentrons sur l'inférence de la distance sur l'axe Z comme compétence de base, avec des extensions futures visant un raisonnement complet à 6 degrés de liberté (DOFs). L'ensemble de données est publiquement disponible pour soutenir des recherches ultérieures. Ce travail constitue une étape fondamentale vers des systèmes d'IA incarnée capables de compréhension spatiale dans des scénarios interactifs humain-robot.
English
We present a conceptual framework for training Vision-Language Models (VLMs)
to perform Visual Perspective Taking (VPT), a core capability for embodied
cognition essential for Human-Robot Interaction (HRI). As a first step toward
this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse,
that enables supervised learning for spatial reasoning tasks. Each instance
includes an RGB image, a natural language description, and a ground-truth 4X4
transformation matrix representing object pose. We focus on inferring Z-axis
distance as a foundational skill, with future extensions targeting full 6
Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to
support further research. This work serves as a foundational step toward
embodied AI systems capable of spatial understanding in interactive human-robot
scenarios.Summary
AI-Generated Summary