Политики, основанные на контактах: кондиционирование по контакту формирует эффективные модели полезности роботов
Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
February 9, 2026
Авторы: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI
Аннотация
Преобладающая парадигма в обучении роботов пытается добиться обобщения для различных сред, конструкций и задач с помощью языковых промптов во время выполнения. Фундаментальное противоречие ограничивает этот подход: язык часто слишком абстрактен, чтобы направлять конкретное физическое понимание, необходимое для надежного манипулирования. В данной работе мы представляем Контактно-якорные политики (CAP), которые заменяют языковое кондиционирование точками физического контакта в пространстве. Одновременно мы структурируем CAP как библиотеку модульных утилитарных моделей, а не как монолитную политику-универсал. Такая факторизация позволяет нам реализовать цикл итераций "реальность-симуляция": мы создаем EgoGym, легковесный симуляционный бенчмарк, для быстрого выявления режимов сбоев и улучшения наших моделей и наборов данных до развертывания в реальном мире. Мы показываем, что за счет кондиционирования на контакте и итераций через симуляцию, CAP обобщает для новых сред и конструкций "из коробки" на трех фундаментальных навыках манипулирования, используя лишь 23 часа демонстрационных данных, и превосходит крупные передовые VLA в zero-shot оценках на 56%. Все контрольные точки моделей, кодовая база, аппаратное обеспечение, симуляция и наборы данных будут открыты. Страница проекта: https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/