ChatPaper.aiChatPaper

로봇을 위한 구체화된 인지: 공간적으로 기반한 합성 세계를 향하여

Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds

May 20, 2025
저자: Joel Currie, Gioele Migno, Enrico Piacenti, Maria Elena Giannaccini, Patric Bach, Davide De Tommaso, Agnieszka Wykowska
cs.AI

초록

인간-로봇 상호작용(HRI)에 필수적인 구체화된 인지 능력의 핵심인 시각적 관점 수용(VPT)을 수행하기 위한 비전-언어 모델(VLM) 훈련을 위한 개념적 프레임워크를 제시한다. 이 목표를 향한 첫 단계로, NVIDIA Omniverse에서 생성된 합성 데이터셋을 소개하며, 이는 공간 추론 작업을 위한 지도 학습을 가능하게 한다. 각 인스턴스는 RGB 이미지, 자연어 설명, 그리고 객체 포즈를 나타내는 4X4 변환 행렬의 실측값을 포함한다. 우리는 Z축 거리 추론을 기본 기술로 중점적으로 다루며, 향후 확장을 통해 완전한 6자유도(DOFs) 추론을 목표로 한다. 이 데이터셋은 추가 연구를 지원하기 위해 공개적으로 제공된다. 본 연구는 상호작용적인 인간-로봇 시나리오에서 공간 이해가 가능한 구체화된 AI 시스템을 위한 기초 단계로 기능한다.
English
We present a conceptual framework for training Vision-Language Models (VLMs) to perform Visual Perspective Taking (VPT), a core capability for embodied cognition essential for Human-Robot Interaction (HRI). As a first step toward this goal, we introduce a synthetic dataset, generated in NVIDIA Omniverse, that enables supervised learning for spatial reasoning tasks. Each instance includes an RGB image, a natural language description, and a ground-truth 4X4 transformation matrix representing object pose. We focus on inferring Z-axis distance as a foundational skill, with future extensions targeting full 6 Degrees Of Freedom (DOFs) reasoning. The dataset is publicly available to support further research. This work serves as a foundational step toward embodied AI systems capable of spatial understanding in interactive human-robot scenarios.

Summary

AI-Generated Summary

PDF02May 21, 2025