Políticas Ancoradas no Contato: Condicionamento por Contato Cria Modelos de Utilidade Robótica Robustos

Resumo

O paradigma predominante na aprendizagem robótica tenta generalizar entre ambientes, embodimentos e tarefas usando comandos de linguagem em tempo de execução. Uma tensão fundamental limita essa abordagem: a linguagem é frequentemente muito abstrata para orientar o entendimento físico concreto necessário para uma manipulação robusta. Neste trabalho, introduzimos Políticas Ancoradas em Contato (CAP), que substituem o condicionamento por linguagem por pontos de contato físico no espaço. Simultaneamente, estruturamos o CAP como uma biblioteca de modelos utilitários modulares, em vez de uma política generalista monolítica. Essa fatoração nos permite implementar um ciclo de iteração real-para-sim: construímos o EgoGym, um benchmark de simulação leve, para identificar rapidamente modos de falha e refinar nossos modelos e conjuntos de dados antes da implantação no mundo real. Mostramos que, ao condicionar por contato e iterar via simulação, o CAP generaliza para ambientes e embodimentos novos de imediato em três habilidades fundamentais de manipulação, usando apenas 23 horas de dados de demonstração, e supera grandes modelos de linguagem visual (VLA) state-of-the-art em avaliações zero-shot por 56%. Todos os checkpoints de modelo, base de código, hardware, simulação e conjuntos de dados serão de código aberto. Página do projeto: https://cap-policy.github.io/

English

The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/