Contact-Anchored Policies: Contact-Conditionering Creëert Krachtige Robot-Nuttigheidsmodellen
Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
February 9, 2026
Auteurs: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
Samenvatting
Het heersende paradigma in robotleren probeert te generaliseren over omgevingen, embodimenten en taken met behulp van taalprompts tijdens runtime. Een fundamentele spanning beperkt deze aanpak: taal is vaak te abstract om het concrete fysieke begrip te sturen dat nodig is voor robuuste manipulatie. In dit werk introduceren we Contact-Anchored Policies (CAP), die taalconditionering vervangen door punten van fysiek contact in de ruimte. Tegelijkertijd structureren we CAP als een bibliotheek van modulaire utility-modellen in plaats van een monolithisch generalistisch beleid. Deze factorisatie stelt ons in staat om een real-to-sim iteratiecyclus te implementeren: we bouwen EgoGym, een lichtgewicht simulatiebenchmark, om snel faalmodi te identificeren en onze modellen en datasets te verfijnen vóór inzet in de echte wereld. We tonen aan dat CAP, door te conditioneren op contact en te itereren via simulatie, out-of-the-box generaliseert naar nieuwe omgevingen en embodimenten voor drie fundamentele manipulatievaardigheden, met slechts 23 uur aan demonstratiedata, en state-of-the-art VLAs verslaat in zero-shot evaluaties met 56%. Alle modelcheckpoints, codebase, hardware, simulatie en datasets worden open-source gemaakt. Projectpagina: https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/