ChatPaper.aiChatPaper

ロボット操作における関節部品知覚の再考

Revisiting Articulated Parts Perception in Robot Manipulation

June 6, 2026
著者: Xiaoqian Wu, Yejie Guo, Xiaoyang Chen, Lixin Yang, Cewu Lu, Yong-Lu Li
cs.AI

要旨

私たちは、箱、取っ手、ドアなど、可動で関節的な部品を持つ様々な物体に囲まれている。関節部品の正確かつ一般化可能な認識は、ロボットの操作能力を向上させるために不可欠である。このニーズに基づき、関節部品認識の最近の研究は二つの主要な方向性をたどってきた。一つはポーズベースの表現を用いる手法であり、これは高い人的コストを要する。一方、アフォーダンスベースの手法は、追加の人的労力を必要とせずに点追跡から将来の物体の動きを抽出するが、低品質のデータに悩まされている。本論文では、関節部品の新しい表現として、Geometric Primary Structure (GPS) を提案する。これは部品の幾何学的構造の抽象化であり、スケーラビリティと品質のバランスを図る。効率的かつスケーラブルなデータ収集のために、GPSはポータブルな仮想現実(VR)デバイスと統合されており、1つのオブジェクトシーケンスのアノテーションにわずか1分しかかからない。この直接的な人間によるアノテーションは、推定されたアフォーダンスよりも高品質である。この効率的なVR-GPSシステムを用いて、6つの部品クラスにわたる234個のオブジェクトに対して41Kフレームを収集し、単一のRGB-Dオブジェクト画像を入力として一般化可能なGPSモデルを訓練する。物体操作のために、GPS予測に基づくヒューリスティックポリシーを展開する。ドメイン内の微調整を一切行わずに、本手法は9つのオブジェクトに対する270の初期状態をカバーし、73%の成功率を達成する。コード、データ、再利用可能なツールは https://enlighten0707.github.io/gps で公開している。
English
We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.