SoFar: Orientação Baseada em Linguagem que Conecta Raciocínio Espacial e Manipulação de Objetos
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
February 18, 2025
Autores: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI
Resumo
A inteligência espacial é um componente crítico da IA corporificada, capacitando robôs a compreender e interagir com seus ambientes. Embora avanços recentes tenham aprimorado a capacidade dos VLMs (Modelos de Linguagem Visual) de perceber localizações de objetos e relações posicionais, eles ainda carecem da habilidade de compreender precisamente as orientações dos objetos — um requisito essencial para tarefas que envolvem manipulações refinadas. Superar essa limitação não exige apenas raciocínio geométrico, mas também uma forma expressiva e intuitiva de representar a orientação. Nesse contexto, propomos que a linguagem natural oferece um espaço de representação mais flexível do que sistemas de referência canônicos, tornando-a particularmente adequada para sistemas robóticos que seguem instruções. Neste artigo, introduzimos o conceito de orientação semântica, que define as orientações dos objetos usando linguagem natural de maneira independente de sistemas de referência (por exemplo, a direção de "inserção" de um USB ou a direção do "cabo" de uma faca). Para apoiar isso, construímos o OrienText300K, um conjunto de dados em larga escala de modelos 3D anotados com orientações semânticas que conectam o entendimento geométrico à semântica funcional. Ao integrar a orientação semântica em um sistema VLM, capacitamos robôs a gerar ações de manipulação com restrições tanto posicionais quanto orientacionais. Experimentos extensivos em simulação e no mundo real demonstram que nossa abordagem melhora significativamente as capacidades de manipulação robótica, por exemplo, com 48,7% de precisão no Open6DOR e 74,9% de precisão no SIMPLER.
English
Spatial intelligence is a critical component of embodied AI, promoting robots
to understand and interact with their environments. While recent advances have
enhanced the ability of VLMs to perceive object locations and positional
relationships, they still lack the capability to precisely understand object
orientations-a key requirement for tasks involving fine-grained manipulations.
Addressing this limitation not only requires geometric reasoning but also an
expressive and intuitive way to represent orientation. In this context, we
propose that natural language offers a more flexible representation space than
canonical frames, making it particularly suitable for instruction-following
robotic systems. In this paper, we introduce the concept of semantic
orientation, which defines object orientations using natural language in a
reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the
''handle'' direction of a knife). To support this, we construct OrienText300K,
a large-scale dataset of 3D models annotated with semantic orientations that
link geometric understanding to functional semantics. By integrating semantic
orientation into a VLM system, we enable robots to generate manipulation
actions with both positional and orientational constraints. Extensive
experiments in simulation and real world demonstrate that our approach
significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy
on Open6DOR and 74.9% accuracy on SIMPLER.Summary
AI-Generated Summary