ENPIRE: Automejora de Políticas de Robots Autónomos en el Mundo Real

Resumen

Lograr una manipulación robótica diestra en el mundo real depende en gran medida de la supervisión humana y la ingeniería de algoritmos, lo que se convierte en un cuello de botella central en la búsqueda de una inteligencia física general. Aunque los agentes de codificación emergentes pueden generar código para automatizar la búsqueda de algoritmos, sus éxitos se limitan en gran medida a entornos digitales. Conjeturamos que la abstracción faltante para automatizar la investigación en robótica es un bucle de retroalimentación repetible para la mejora de políticas en el mundo real: restablecer la escena, ejecutar una política, verificar el resultado y refinar la siguiente iteración. Para cerrar esta brecha, presentamos ENPIRE, un marco para agentes de codificación que instancia esta rutina de retroalimentación física con cuatro módulos centrales: un módulo de Entorno (EN) para el reinicio y verificación automáticos, un módulo de Mejora de Políticas (PI) que lanza el refinamiento de políticas, un módulo de Ejecución (R) para evaluar políticas con uno o múltiples robots físicos operando en paralelo, y un módulo de Evolución (E) en el que los agentes de codificación analizan registros, consultan literatura, mejoran la infraestructura de entrenamiento y el código de algoritmos para abordar modos de fallo. Este sistema de lazo cerrado transforma el aprendizaje de manipulación en el mundo real en un procedimiento de optimización controlable, minimizando el esfuerzo humano mientras permite ablaciones justas entre variantes de recetas de entrenamiento y agentes. Impulsados por ENPIRE, los agentes de codificación de frontera pueden entrenar autónomamente una política para lograr una tasa de éxito del 99% en tareas de manipulación diestra y desafiantes, como organizar una caja de alfileres, apretar una brida y uso de herramientas, un proceso que se acelera aún más cuando desplegamos un equipo de agentes en una flota de robots. Nuestros resultados sugieren un camino práctico y escalable hacia el despliegue de agentes de codificación para avanzar autónomamente en la robótica en el mundo físico.

English

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.