ENPIRE: Zelfverbetering van agentisch robotbeleid in de echte wereld

Samenvatting

Het bereiken van behendige robotmanipulatie in de echte wereld is sterk afhankelijk van menselijk toezicht en algoritmische engineering, wat een centraal knelpunt vormt in het streven naar algemene fysieke intelligentie. Hoewel opkomende coderingsagenten code kunnen genereren om algoritmisch zoeken te automatiseren, blijven hun successen grotendeels beperkt tot digitale omgevingen. Wij veronderstellen dat de ontbrekende abstractie voor het automatiseren van robotica-onderzoek een herhaalbare terugkoppelingslus is voor beleidsverbetering in de echte wereld: het resetten van de scène, het uitvoeren van een beleid, het verifiëren van het resultaat en het verfijnen van de volgende iteratie. Om deze kloof te overbruggen introduceren we ENPIRE, een harnasframework voor coderingsagenten dat deze fysieke terugkoppelingsroutine instantieert met vier kernmodules: een Omgevingsmodule (EN) voor automatisch resetten en verificatie, een Beleidsverbeteringsmodule (PI) die beleidsverfijning initieert, een Uitrolmodule (R) om beleid te evalueren met een of meerdere fysieke robots die parallel opereren, en een Evolutiemodule (E) waarin coderingsagenten logs analyseren, literatuur raadplegen, trainingsinfrastructuur en algoritmecode verbeteren om faalmodi aan te pakken. Dit gesloten-lussysteem transformeert het leren van manipulatie in de echte wereld tot een beheersbare optimalisatieprocedure, waarbij menselijke inspanning wordt geminimaliseerd terwijl eerlijke ablatiestudies over variaties in trainingsrecepten en agentvarianten mogelijk zijn. Aangedreven door ENPIRE kunnen geavanceerde coderingsagenten autonoom een beleid trainen dat een slagingspercentage van 99% behaalt bij uitdagende, behendige manipulatie taken, zoals het organiseren van een speldenkussen, het vastmaken van een kabelbinder en het gebruik van gereedschap; een proces dat verder versnelt wanneer we een agententeam op een robotvloot inzetten. Onze resultaten wijzen op een praktische en schaalbare weg naar het inzetten van coderingsagenten voor het autonoom vooruitbrengen van de robotica in de fysieke wereld.

English

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.