Hacia la Cognición Corporizada en Robots a través de Mundos Sintéticos con Base Espacial
Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
May 20, 2025
Autores: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI
Resumen
Presentamos un marco conceptual para entrenar Modelos de Visión-Lenguaje (VLMs) en la realización de Toma de Perspectiva Visual (VPT), una capacidad fundamental para la cognición encarnada esencial en la Interacción Humano-Robot (HRI). Como primer paso hacia este objetivo, introducimos un conjunto de datos sintético, generado en NVIDIA Omniverse, que permite el aprendizaje supervisado para tareas de razonamiento espacial. Cada instancia incluye una imagen RGB, una descripción en lenguaje natural y una matriz de transformación 4X4 que representa la pose del objeto como verdad fundamental. Nos enfocamos en inferir la distancia en el eje Z como habilidad básica, con extensiones futuras dirigidas al razonamiento completo de 6 Grados de Libertad (DOFs). El conjunto de datos está disponible públicamente para apoyar investigaciones adicionales. Este trabajo sirve como un paso fundamental hacia sistemas de IA encarnada capaces de comprender el espacio en escenarios interactivos de humano-robot.
English
We present a conceptual framework for training Vision-Language Models (VLMs)
to perform Visual Perspective Taking (VPT), a core capability for embodied
cognition essential for Human-Robot Interaction (HRI). As a first step toward
this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse,
that enables supervised learning for spatial reasoning tasks. Each instance
includes an RGB image, a natural language description, and a ground-truth 4X4
transformation matrix representing object pose. We focus on inferring Z-axis
distance as a foundational skill, with future extensions targeting full 6
Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to
support further research. This work serves as a foundational step toward
embodied AI systems capable of spatial understanding in interactive human-robot
scenarios.Summary
AI-Generated Summary