ChatPaper.aiChatPaper

Kontaktverankerte Richtlinien: Kontaktkonditionierung erzeugt starke Nutzenmodelle für Roboter

Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

February 9, 2026
papers.authors: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
cs.AI

papers.abstract

Das vorherrschende Paradigma im Robotik-Lernen versucht, zur Laufzeit mittels Sprachprompts über Umgebungen, Embodiments und Aufgaben hinweg zu generalisieren. Ein grundlegender Widerspruch begrenzt diesen Ansatz: Sprache ist oft zu abstrakt, um das konkrete physikalische Verständnis zu leiten, das für robuste Manipulation erforderlich ist. In dieser Arbeit stellen wir Contact-Anchored Policies (CAP) vor, die Sprachkonditionierung durch Punkte physischen Kontakts im Raum ersetzen. Gleichzeitig strukturieren wir CAP als eine Bibliothek modularer Hilfsmodelle anstatt als eine monolithische Generalisten-Policy. Diese Faktorisierung ermöglicht es uns, einen Real-zu-Sim-Iterationszyklus zu implementieren: Wir entwickeln EgoGym, einen leichtgewichtigen Simulationsbenchmark, um schnell Fehlermodi zu identifizieren und unsere Modelle und Datensätze vor dem Einsatz in der realen Welt zu verfeinern. Wir zeigen, dass CAP durch Konditionierung auf Kontakt und Iteration via Simulation out-of-the-box auf neuartige Umgebungen und Embodiments für drei grundlegende Manipulationsfertigkeiten generalisiert, wobei nur 23 Stunden Demonstrationsdaten verwendet werden, und große, state-of-the-art VLAs in Zero-Shot-Evaluierungen um 56% übertrifft. Alle Modell-Checkpoints, Codebase, Hardware, Simulation und Datensätze werden quelloffen bereitgestellt. Projektseite: https://cap-policy.github.io/
English
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/
PDF111February 12, 2026