ChatPaper.aiChatPaper

Hin zu verkörperter Kognition in Robotern durch räumlich verankerte synthetische Welten

Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds

May 20, 2025
Autoren: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI

Zusammenfassung

Wir präsentieren ein konzeptionelles Framework für das Training von Vision-Language-Modellen (VLMs), um Visual Perspective Taking (VPT) durchzuführen, eine Kernfähigkeit für verkörperte Kognition, die für die Mensch-Roboter-Interaktion (HRI) essenziell ist. Als ersten Schritt zu diesem Ziel führen wir einen synthetischen Datensatz ein, der in NVIDIA Omniverse generiert wurde und überwachtes Lernen für räumliche Denkaufgaben ermöglicht. Jede Instanz umfasst ein RGB-Bild, eine natürliche Sprachbeschreibung und eine Ground-Truth-4x4-Transformationsmatrix, die die Objektpose darstellt. Wir konzentrieren uns auf die Inferenz der Z-Achsen-Distanz als grundlegende Fähigkeit, mit zukünftigen Erweiterungen, die auf vollständige 6 Degrees of Freedom (DOFs)-Schlussfolgerungen abzielen. Der Datensatz ist öffentlich verfügbar, um weitere Forschungen zu unterstützen. Diese Arbeit dient als grundlegender Schritt hin zu verkörperten KI-Systemen, die räumliches Verständnis in interaktiven Mensch-Roboter-Szenarien ermöglichen.
English
We present a conceptual framework for training Vision-Language Models (VLMs) to perform Visual Perspective Taking (VPT), a core capability for embodied cognition essential for Human-Robot Interaction (HRI). As a first step toward this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse, that enables supervised learning for spatial reasoning tasks. Each instance includes an RGB image, a natural language description, and a ground-truth 4X4 transformation matrix representing object pose. We focus on inferring Z-axis distance as a foundational skill, with future extensions targeting full 6 Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to support further research. This work serves as a foundational step toward embodied AI systems capable of spatial understanding in interactive human-robot scenarios.

Summary

AI-Generated Summary

PDF02May 21, 2025