ChatPaper.aiChatPaper

SoFar:言語に基づく定位が空間推論と物体操作を橋渡しする

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

February 18, 2025
著者: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi
cs.AI

要旨

空間知能は、エンボディードAIにおいて重要な要素であり、ロボットが環境を理解し相互作用することを促進します。近年の進歩により、視覚言語モデル(VLM)が物体の位置や位置関係を認識する能力は向上しましたが、細かな操作を必要とするタスクにおいて鍵となる物体の向きを正確に理解する能力はまだ不足しています。この制限を克服するには、幾何学的推論だけでなく、向きを表現するための直感的で表現力豊かな方法が必要です。この文脈において、自然言語は標準的な座標系よりも柔軟な表現空間を提供し、指示に従うロボットシステムに特に適していると提案します。本論文では、自然言語を用いて物体の向きを定義する「セマンティックオリエンテーション」の概念を紹介します。これは参照フレームを必要としない方法で(例:USBの「差し込み」方向やナイフの「取っ手」方向)、幾何学的理解と機能的な意味論を結びつけます。これをサポートするため、セマンティックオリエンテーションが注釈された大規模な3Dモデルデータセット「OrienText300K」を構築しました。セマンティックオリエンテーションをVLMシステムに統合することで、ロボットは位置と向きの制約を伴う操作アクションを生成できるようになります。シミュレーションと実世界での広範な実験により、本アプローチがロボットの操作能力を大幅に向上させることが実証されました(例:Open6DORでの48.7%の精度、SIMPLERでの74.9%の精度)。
English
Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the ''handle'' direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

Summary

AI-Generated Summary

PDF302February 19, 2025