ChatPaper.aiChatPaper

SoFar: La orientación basada en lenguaje conecta el razonamiento espacial y la manipulación de objetos

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

February 18, 2025
Autores: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI

Resumen

La inteligencia espacial es un componente crítico de la IA encarnada, permitiendo a los robots comprender e interactuar con su entorno. Si bien los avances recientes han mejorado la capacidad de los modelos de lenguaje visual (VLMs) para percibir la ubicación de objetos y sus relaciones posicionales, aún carecen de la habilidad para comprender con precisión las orientaciones de los objetos, un requisito clave para tareas que involucran manipulaciones de alta precisión. Abordar esta limitación no solo requiere razonamiento geométrico, sino también una forma expresiva e intuitiva de representar la orientación. En este contexto, proponemos que el lenguaje natural ofrece un espacio de representación más flexible que los marcos de referencia canónicos, lo que lo hace particularmente adecuado para sistemas robóticos que siguen instrucciones. En este artículo, introducimos el concepto de orientación semántica, que define las orientaciones de los objetos utilizando lenguaje natural de manera independiente de marcos de referencia (por ejemplo, la dirección de "inserción" de un USB o la dirección del "mango" de un cuchillo). Para respaldar esto, construimos OrienText300K, un conjunto de datos a gran escala de modelos 3D anotados con orientaciones semánticas que vinculan la comprensión geométrica con la semántica funcional. Al integrar la orientación semántica en un sistema VLM, permitimos que los robots generen acciones de manipulación con restricciones tanto posicionales como de orientación. Experimentos extensos en simulación y en el mundo real demuestran que nuestro enfoque mejora significativamente las capacidades de manipulación robótica, por ejemplo, con un 48,7% de precisión en Open6DOR y un 74,9% de precisión en SIMPLER.
English
Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the ''handle'' direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

Summary

AI-Generated Summary

PDF302February 19, 2025