ChatPaper.aiChatPaper

Politiques Ancrées sur le Contact : Le Conditionnement par le Contact Crée des Modèles d'Utilité Robuste pour les Robots

Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

February 9, 2026
papers.authors: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI

papers.abstract

Le paradigme dominant en apprentissage robotique tente de généraliser entre environnements, incarnations et tâches à l'aide d'invites langagières lors de l'exécution. Une tension fondamentale limite cette approche : le langage est souvent trop abstrait pour guider la compréhension physique concrète requise pour une manipulation robuste. Dans ce travail, nous introduisons les Politiques Ancrées sur le Contact (CAP), qui remplacent le conditionnement linguistique par des points de contact physique dans l'espace. Simultanément, nous structurons CAP comme une bibliothèque de modèles utilitaires modulaires plutôt que comme une politique généraliste monolithique. Cette factorisation nous permet de mettre en œuvre un cycle d'itération réel-vers-simulé : nous construisons EgoGym, un benchmark de simulation léger, pour identifier rapidement les modes de défaillance et affiner nos modèles et jeux de données avant le déploiement réel. Nous montrons qu'en se basant sur le contact et en itérant via la simulation, CAP généralise immédiatement à de nouveaux environnements et incarnations pour trois compétences de manipulation fondamentales, tout en n'utilisant que 23 heures de données de démonstration, et surpasse les grands modèles linguistiques visuels état-de-l'art dans des évaluations zero-shot par 56%. Tous les points de contrôle des modèles, codebase, matériel, simulation et jeux de données seront open-source. Page du projet : https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/
PDF111February 12, 2026