接触点固定化ポリシー:接触条件付けが生み出す強力なロボット効用モデル
Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
February 9, 2026
著者: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
要旨
ロボット学習における現在の主流パラダイムは、実行時の言語プロンプトを用いて環境、身体性、タスクを横断的に汎化することを試みている。しかし、このアプローチには根本的なジレンマが存在する。言語はしばしば抽象度が高すぎ、堅牢なマニピュレーションに必要な具体的な物理的理解を導くには不十分なのである。本研究では、言語条件付けを空間内の物理的接触点に置き換えたContact-Anchored Policies(CAP)を提案する。同時に、CAPを単一の汎用ポリシーではなく、モジュール化されたユーティリティモデルのライブラリとして構成する。この因数分解により、実世界とシミュレーションを往復する反復サイクルを実現する。軽量なシミュレーションベンチマークであるEgoGymを構築し、実世界での展開前に故障モードを迅速に特定し、モデルとデータセットを改良する。接触に基づく条件付けとシミュレーションによる反復により、CAPは基本操作スキル3種において、わずか23時間の実演データのみを用いて、新しい環境や身体性にそのまま適用可能な汎化性能を発揮し、大規模な最先端VLAをゼロショット評価で56%上回ることを示す。全てのモデルチェックポイント、コードベース、ハードウェア設計、シミュレーション、データセットを公開する。プロジェクトページ: https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/