ENPIRE: Autoaperfeiçoamento de Política Robótica Agente no Mundo Real

Resumo

Alcançar a manipulação robótica dextra no mundo real depende fortemente de supervisão humana e engenharia de algoritmos, o que se torna um gargalo central na busca por inteligência física geral. Embora agentes de codificação emergentes possam gerar código para automatizar a busca de algoritmos, seus sucessos permanecem em grande parte confinados a ambientes digitais. Conjecturamos que a abstração ausente para automatizar a pesquisa em robótica é um ciclo de feedback repetível para melhoria de políticas no mundo real: redefinir a cena, executar uma política, verificar o resultado e refinar a próxima iteração. Para preencher essa lacuna, apresentamos o ENPIRE, uma estrutura (harness framework) para agentes de codificação que instancia essa rotina de feedback físico com quatro módulos centrais: um módulo de Ambiente (EN) para redefinição e verificação automáticas, um módulo de Melhoria de Política (PI) que inicia o refinamento da política, um módulo de Rollout (R) para avaliar políticas com um ou múltiplos robôs físicos operando em paralelo, e um módulo de Evolução (E) no qual agentes de codificação analisam logs, consultam literatura, melhoram a infraestrutura de treinamento e o código do algoritmo para lidar com modos de falha. Esse sistema em malha fechada transforma o aprendizado de manipulação no mundo real em um procedimento de otimização controlável, minimizando o esforço humano enquanto permite ablações justas entre variantes de receitas de treinamento e de agentes. Impulsionados pelo ENPIRE, agentes de codificação de ponta podem treinar autonomamente uma política para alcançar uma taxa de sucesso de 99% em tarefas de manipulação dextra desafiadoras, como organizar uma caixa de pinos, apertar uma abraçadeira e uso de ferramentas, um processo que se acelera ainda mais quando despachamos uma equipe de agentes em uma frota de robôs. Nossos resultados sugerem um caminho prático e escalável para implantar agentes de codificação no avanço autônomo da robótica no mundo físico.

English

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.