ENPIRE: Agentische Selbstverbesserung der Roboter-Policy in der realen Welt

Zusammenfassung

Die Realisierung geschickter Roboter-Manipulation in der realen Welt ist stark auf menschliche Aufsicht und algorithmisches Engineering angewiesen, was zu einem zentralen Engpass auf dem Weg zu allgemeiner physischer Intelligenz wird. Obwohl aufkommende Codierungsagenten Code generieren können, um die Algorithmussuche zu automatisieren, bleiben ihre Erfolge weitgehend auf digitale Umgebungen beschränkt. Wir vermuten, dass die fehlende Abstraktion zur Automatisierung der Robotikforschung eine wiederholbare Rückkopplungsschleife zur Verbesserung realweltlicher Politiken ist: Szenen zurücksetzen, eine Politik ausführen, das Ergebnis verifizieren und die nächste Iteration verfeinern. Um diese Lücke zu schließen, führen wir ENPIRE ein, ein Rahmenwerk für Codierungsagenten, das diese physische Rückkopplungsroutine mit vier Kernmodulen instanziiert: einem Umgebungsmodul (Environment, EN) für automatisches Zurücksetzen und Verifizieren, einem Politikverbesserungsmodul (Policy Improvement, PI) zur Initiierung von Politikverfeinerungen, einem Rollout-Modul (R) zur Bewertung von Politiken mit einem oder mehreren parallel arbeitenden physischen Robotern und einem Evolutionsmodul (E), in dem Codierungsagenten Protokolle analysieren, Literatur konsultieren und sowohl Trainingsinfrastruktur als auch Algorithmuscode verbessern, um Fehlermodi zu beheben. Dieses geschlossene System verwandelt realweltliches Manipulationslernen in einen kontrollierbaren Optimierungsprozess, der den menschlichen Aufwand minimiert und gleichzeitig faire Ablationen über Trainingsrezepte und Agentenvarianten hinweg ermöglicht. Angetrieben von ENPIRE können führende Codierungsagenten eigenständig eine Politik trainieren, die bei anspruchsvollen, geschickten Manipulationsaufgaben – wie dem Organisieren einer Stiftebox, dem Festziehen eines Kabelbinders und der Werkzeugnutzung – eine Erfolgsrate von 99 % erreicht; ein Prozess, der sich weiter beschleunigt, wenn wir ein Agententeam auf eine Roboterflotte entsenden. Unsere Ergebnisse deuten auf einen praktischen und skalierbaren Weg hin, Codierungsagenten zur autonomen Weiterentwicklung der Robotik in der physischen Welt einzusetzen.

English

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.