ENPIRE : Auto-amélioration agentique de la politique robotique dans le monde réel

Résumé

Atteindre une manipulation robotique dextre dans le monde réel dépend fortement de la supervision humaine et de l'ingénierie algorithmique, ce qui constitue un goulot d'étranglement central dans la quête d'une intelligence physique générale. Bien que les agents de codage émergents puissent générer du code pour automatiser la recherche d'algorithmes, leurs succès restent largement confinés aux environnements numériques. Nous conjecturons que l'abstraction manquante pour automatiser la recherche en robotique est une boucle de rétroaction reproductible pour l'amélioration des politiques dans le monde réel : réinitialiser la scène, exécuter une politique, vérifier le résultat, puis affiner l'itération suivante. Pour combler cette lacune, nous introduisons ENPIRE, un cadre d'exploitation pour agents de codage qui instancie cette routine de rétroaction physique avec quatre modules principaux : un module Environnement (EN) pour la réinitialisation et la vérification automatiques, un module d'Amélioration de Politique (PI) qui lance le raffinement de la politique, un module de Déploiement (R) pour évaluer les politiques avec un ou plusieurs robots physiques opérant en parallèle, et un module d'Évolution (E) dans lequel les agents de codage analysent les journaux, consultent la littérature, améliorent l'infrastructure d'entraînement et le code des algorithmes pour remédier aux modes de défaillance. Ce système en boucle fermée transforme l'apprentissage de la manipulation dans le monde réel en une procédure d'optimisation contrôlable, minimisant l'effort humain tout en permettant des ablations équitables entre les variantes de recettes d'entraînement et d'agents. Propulsés par ENPIRE, les agents de codage de pointe peuvent entraîner de manière autonome une politique atteignant un taux de succès de 99 % sur des tâches de manipulation dextre exigeantes, telles que l'organisation d'une boîte à épingles, le serrage d'un collier de serrage et l'utilisation d'outils, un processus qui s'accélère encore lorsque nous déployons une équipe d'agents sur une flotte de robots. Nos résultats suggèrent une voie pratique et évolutive vers le déploiement d'agents de codage pour faire progresser de manière autonome la robotique dans le monde physique.

English

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.