Rumo à Cognição Incorporada em Robôs por meio de Mundos Sintéticos Fundamentados Espacialmente
Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds
May 20, 2025
Autores: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI
Resumo
Apresentamos um framework conceitual para treinar Modelos de Visão e Linguagem (VLMs) na execução de Tomada de Perspectiva Visual (VPT), uma capacidade fundamental para a cognição incorporada essencial para a Interação Humano-Robô (HRI). Como primeiro passo em direção a esse objetivo, introduzimos um conjunto de dados sintético, gerado no NVIDIA Omniverse, que permite o aprendizado supervisionado para tarefas de raciocínio espacial. Cada instância inclui uma imagem RGB, uma descrição em linguagem natural e uma matriz de transformação 4x4 de verdade fundamental representando a pose do objeto. Focamos na inferência da distância no eixo Z como uma habilidade fundamental, com extensões futuras visando o raciocínio completo em 6 Graus de Liberdade (DOFs). O conjunto de dados está publicamente disponível para apoiar pesquisas adicionais. Este trabalho serve como um passo fundamental para sistemas de IA incorporada capazes de compreensão espacial em cenários interativos de humano-robô.
English
We present a conceptual framework for training Vision-Language Models (VLMs)
to perform Visual Perspective Taking (VPT), a core capability for embodied
cognition essential for Human-Robot Interaction (HRI). As a first step toward
this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse,
that enables supervised learning for spatial reasoning tasks. Each instance
includes an RGB image, a natural language description, and a ground-truth 4X4
transformation matrix representing object pose. We focus on inferring Z-axis
distance as a foundational skill, with future extensions targeting full 6
Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to
support further research. This work serves as a foundational step toward
embodied AI systems capable of spatial understanding in interactive human-robot
scenarios.