SoFar: Sprachbasierte Orientierung verbindet räumliches Denken und Objektmanipulation
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
February 18, 2025
Autoren: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI
Zusammenfassung
Räumliche Intelligenz ist eine entscheidende Komponente von verkörpertem KI-Systemen, die es Robotern ermöglicht, ihre Umgebung zu verstehen und mit ihr zu interagieren. Obwohl jüngste Fortschritte die Fähigkeit von Vision-Language-Modellen (VLMs) verbessert haben, Objektpositionen und räumliche Beziehungen wahrzunehmen, fehlt ihnen noch die Fähigkeit, Objektausrichtungen präzise zu verstehen – eine Schlüsselvoraussetzung für Aufgaben, die feinmotorische Manipulationen erfordern. Die Bewältigung dieser Einschränkung erfordert nicht nur geometrisches Denken, sondern auch eine ausdrucksstarke und intuitive Möglichkeit, Ausrichtungen darzustellen. In diesem Kontext schlagen wir vor, dass natürliche Sprache einen flexibleren Darstellungsraum bietet als kanonische Bezugssysteme, was sie besonders geeignet für befehlsfolgende Robotersysteme macht. In diesem Artikel führen wir das Konzept der semantischen Ausrichtung ein, das Objektausrichtungen mithilfe natürlicher Sprache in einer bezugssystemfreien Weise definiert (z.B. die „Einsteckrichtung“ eines USB-Sticks oder die „Griffrichtung“ eines Messers). Um dies zu unterstützen, erstellen wir OrienText300K, einen umfangreichen Datensatz von 3D-Modellen, die mit semantischen Ausrichtungen annotiert sind und geometrisches Verständnis mit funktionaler Semantik verknüpfen. Durch die Integration der semantischen Ausrichtung in ein VLM-System ermöglichen wir Robotern, Manipulationsaktionen mit sowohl positions- als auch ausrichtungsbezogenen Einschränkungen zu generieren. Umfangreiche Experimente in Simulation und realer Umgebung zeigen, dass unser Ansatz die Manipulationsfähigkeiten von Robotern erheblich verbessert, z.B. 48,7% Genauigkeit bei Open6DOR und 74,9% Genauigkeit bei SIMPLER.
English
Spatial intelligence is a critical component of embodied AI, promoting robots
to understand and interact with their environments. While recent advances have
enhanced the ability of VLMs to perceive object locations and positional
relationships, they still lack the capability to precisely understand object
orientations-a key requirement for tasks involving fine-grained manipulations.
Addressing this limitation not only requires geometric reasoning but also an
expressive and intuitive way to represent orientation. In this context, we
propose that natural language offers a more flexible representation space than
canonical frames, making it particularly suitable for instruction-following
robotic systems. In this paper, we introduce the concept of semantic
orientation, which defines object orientations using natural language in a
reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the
''handle'' direction of a knife). To support this, we construct OrienText300K,
a large-scale dataset of 3D models annotated with semantic orientations that
link geometric understanding to functional semantics. By integrating semantic
orientation into a VLM system, we enable robots to generate manipulation
actions with both positional and orientational constraints. Extensive
experiments in simulation and real world demonstrate that our approach
significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy
on Open6DOR and 74.9% accuracy on SIMPLER.Summary
AI-Generated Summary