SoFar: Taalgebaseerde oriëntatie verbindt ruimtelijk redeneren en objectmanipulatie

Samenvatting

Ruimtelijke intelligentie is een cruciaal onderdeel van embodied AI, waardoor robots hun omgeving kunnen begrijpen en ermee kunnen interacteren. Hoewel recente vooruitgang het vermogen van VLMs (Vision-Language Models) heeft verbeterd om objectlocaties en positionele relaties waar te nemen, ontbreekt het hen nog steeds aan het vermogen om objectoriëntaties precies te begrijpen—een essentiële vereiste voor taken die fijnmazige manipulaties vereisen. Het aanpakken van deze beperking vereist niet alleen geometrisch redeneren, maar ook een expressieve en intuïtieve manier om oriëntatie weer te geven. In deze context stellen we voor dat natuurlijke taal een flexibeler representatieruimte biedt dan canonieke referentiekaders, waardoor het bijzonder geschikt is voor instructievolgende robotsystemen. In dit artikel introduceren we het concept van semantische oriëntatie, dat objectoriëntaties definieert met behulp van natuurlijke taal op een referentiekader-vrije manier (bijvoorbeeld de ''insteekrichting'' van een USB of de ''handgreeprichting'' van een mes). Om dit te ondersteunen, hebben we OrienText300K geconstrueerd, een grootschalige dataset van 3D-modellen geannoteerd met semantische oriëntaties die geometrisch begrip koppelen aan functionele semantiek. Door semantische oriëntatie te integreren in een VLM-systeem, stellen we robots in staat om manipulatietaken te genereren met zowel positionele als oriëntatiebeperkingen. Uitgebreide experimenten in simulatie en de echte wereld tonen aan dat onze aanpak de manipulatiecapaciteiten van robots aanzienlijk verbetert, bijvoorbeeld met een nauwkeurigheid van 48,7% op Open6DOR en 74,9% op SIMPLER.

English

Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the ''handle'' direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

SoFar: Taalgebaseerde oriëntatie verbindt ruimtelijk redeneren en objectmanipulatie

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

Samenvatting

Support