ChatPaper.aiChatPaper

Políticas Ancladas en el Contacto: El Acondicionamiento por Contacto Genera Modelos de Utilidad Robótica Robustos

Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

February 9, 2026
Autores: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI

Resumen

El paradigma predominante en el aprendizaje robótico intenta generalizar a través de entornos, morfologías y tareas utilizando instrucciones de lenguaje en tiempo de ejecución. Un conflicto fundamental limita este enfoque: el lenguaje a menudo es demasiado abstracto para guiar la comprensión física concreta requerida para una manipulación robusta. En este trabajo, presentamos Políticas Ancladas en Contacto (CAP), que reemplazan el condicionamiento por lenguaje con puntos de contacto físico en el espacio. Simultáneamente, estructuramos CAP como una biblioteca de modelos de utilidad modulares en lugar de una política generalista monolítica. Esta factorización nos permite implementar un ciclo de iteración de lo real a lo simulado: construimos EgoGym, un benchmark de simulación ligero, para identificar rápidamente modos de fallo y refinar nuestros modelos y conjuntos de datos antes del despliegue en el mundo real. Demostramos que, al condicionar por contacto e iterar mediante simulación, CAP generaliza a entornos y morfologías novedosos de inmediato en tres habilidades de manipulación fundamentales, utilizando solo 23 horas de datos de demostración, y supera a los grandes modelos de lenguaje visual (VLAs) de última generación en evaluaciones zero-shot por un 56%. Todos los checkpoints de los modelos, código base, hardware, simulaciones y conjuntos de datos serán de código abierto. Página del proyecto: https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/
PDF111February 12, 2026