ChatPaper.aiChatPaper

SoFar: Языково-ориентированная система навигации, объединяющая пространственное мышление и манипуляции с объектами

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

February 18, 2025
Авторы: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI

Аннотация

Пространственный интеллект является ключевым компонентом воплощённого ИИ, позволяя роботам понимать и взаимодействовать с окружающей средой. Хотя последние достижения улучшили способность визуально-языковых моделей (VLM) воспринимать местоположение объектов и их пространственные отношения, они всё ещё не способны точно понимать ориентацию объектов — важное требование для задач, связанных с тонкими манипуляциями. Устранение этого ограничения требует не только геометрического анализа, но и выразительного и интуитивного способа представления ориентации. В этом контексте мы предлагаем использовать естественный язык как более гибкое пространство представления по сравнению с каноническими системами координат, что делает его особенно подходящим для роботизированных систем, выполняющих инструкции. В данной статье мы вводим концепцию семантической ориентации, которая определяет ориентацию объектов с помощью естественного языка без привязки к системе координат (например, направление "вставки" USB или "ручки" ножа). Для поддержки этого мы создали OrienText300K — крупномасштабный набор данных 3D-моделей, аннотированных семантическими ориентациями, связывающими геометрическое понимание с функциональной семантикой. Интегрируя семантическую ориентацию в систему VLM, мы позволяем роботам генерировать манипуляционные действия с учётом как позиционных, так и ориентационных ограничений. Многочисленные эксперименты в симуляции и реальном мире демонстрируют, что наш подход значительно улучшает возможности роботизированных манипуляций, например, достигая точности 48,7% на Open6DOR и 74,9% на SIMPLER.
English
Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the ''handle'' direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

Summary

AI-Generated Summary

PDF302February 19, 2025