접점 기반 정책: 접점 조건화가 강력한 로봇 효용 모델을 창출한다
Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
February 9, 2026
저자: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
초록
로봇 학습의 주류 패러다임은 런타임에 언어 프롬프트를 사용하여 환경, 구현체, 작업 전반에 걸쳐 일반화를 시도합니다. 하지만 이 접근법에는 근본적인 한계가 존재합니다: 언어는 강력한 조작을 위해 필요한 구체적인 물리적 이해를 안내하기에는 너무 추상적인 경우가 많기 때문입니다. 본 연구에서는 언어 조건화를 공간상의 물리적 접촉점으로 대체하는 Contact-Anchored Policies(CAP)를 소개합니다. 동시에 CAP를 단일한 일반화 정책이 아닌 모듈형 유틸리티 모델 라이브러리로 구성합니다. 이러한 분해(factorization)를 통해 실제-시뮬레이션 반복 주기를 구현할 수 있습니다: 우리는 EgoGym이라는 경량 시뮬레이션 벤치마크를 구축하여 실제 배포 전에 실패 모드를 신속하게 파악하고 모델 및 데이터셋을 개선합니다. 접촉에 기반한 조건화와 시뮬레이션을 통한 반복을 통해 CAP가 단 23시간의 데모 데이터만으로도 세 가지 기본 조작 기술에 대해 새로운 환경과 구현체에 즉시(out of the box) 일반화되며, 최첨단 대규모 VLA를 제로샷 평가에서 56% 앞선다는 것을 보여줍니다. 모든 모델 체크포인트, 코드베이스, 하드웨어, 시뮬레이션 및 데이터셋은 공개될 예정입니다. 프로젝트 페이지: https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/