ChatPaper.aiChatPaper

SoFar: L'Orientamento Basato sul Linguaggio Collega il Ragionamento Spaziale e la Manipolazione degli Oggetti

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

February 18, 2025
Autori: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI

Abstract

L'intelligenza spaziale è un componente cruciale dell'AI incarnata, poiché consente ai robot di comprendere e interagire con il proprio ambiente. Sebbene i recenti progressi abbiano migliorato la capacità dei VLMs (Vision-Language Models) di percepire le posizioni degli oggetti e le relazioni spaziali, essi mancano ancora della capacità di comprendere con precisione l'orientamento degli oggetti—un requisito chiave per compiti che richiedono manipolazioni fini. Affrontare questa limitazione non richiede solo ragionamento geometrico, ma anche un modo espressivo e intuitivo di rappresentare l'orientamento. In questo contesto, proponiamo che il linguaggio naturale offra uno spazio di rappresentazione più flessibile rispetto ai sistemi di riferimento canonici, rendendolo particolarmente adatto per sistemi robotici che seguono istruzioni. In questo articolo, introduciamo il concetto di orientamento semantico, che definisce l'orientamento degli oggetti utilizzando il linguaggio naturale in modo indipendente da un sistema di riferimento (ad esempio, la direzione di "inserimento" di una USB o la direzione del "manico" di un coltello). Per supportare ciò, abbiamo costruito OrienText300K, un ampio dataset di modelli 3D annotati con orientamenti semantici che collegano la comprensione geometrica alla semantica funzionale. Integrando l'orientamento semantico in un sistema VLM, permettiamo ai robot di generare azioni di manipolazione con vincoli sia posizionali che orientazionali. Esperimenti estesi in simulazione e nel mondo reale dimostrano che il nostro approccio migliora significativamente le capacità di manipolazione robotica, ad esempio, con un'accuratezza del 48,7% su Open6DOR e del 74,9% su SIMPLER.
English
Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the ''handle'' direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

Summary

AI-Generated Summary

PDF302February 19, 2025