ENPIRE: Агентное самоусовершенствование политик роботов в реальном мире

Аннотация

Достижение ловкого роботизированного манипулирования в реальном мире в значительной степени зависит от человеческого контроля и инженерной разработки алгоритмов, что становится ключевым узким местом на пути к общему физическому интеллекту. Хотя появляющиеся программные агенты (coding agents) способны генерировать код для автоматизации поиска алгоритмов, их успехи в основном ограничены цифровыми средами. Мы предполагаем, что отсутствующей абстракцией для автоматизации робототехнических исследований является повторяемая обратная связь для улучшения политики в реальном мире: сброс сцены, выполнение политики, верификация результата и уточнение следующей итерации. Для преодоления этого разрыва мы представляем ENPIRE — каркасную среду (harness framework) для программных агентов, которая реализует эту процедуру физической обратной связи с помощью четырех основных модулей: модуля среды (Environment, EN) для автоматического сброса и верификации; модуля улучшения политики (Policy Improvement, PI), запускающего уточнение политики; модуля развертывания (Rollout, R) для оценки политик с помощью одного или нескольких физических роботов, работающих параллельно; и модуля эволюции (Evolution, E), в котором программные агенты анализируют журналы, изучают литературу, улучшают инфраструктуру обучения и код алгоритмов для устранения режимов отказов. Эта замкнутая система превращает обучение манипулированию в реальном мире в контролируемую процедуру оптимизации, минимизируя усилия человека и позволяя проводить корректные абляции по вариантам рецептов обучения и агентов. Работая на базе ENPIRE, передовые программные агенты могут автономно обучить политику достижения 99% успеха на сложных задачах ловкого манипулирования, таких как упорядочивание коробки с булавками, затягивание кабельной стяжки и использование инструментов — процесс, который дополнительно ускоряется при развертывании команды агентов на флоте роботов. Наши результаты указывают на практичный и масштабируемый путь внедрения программных агентов для автономного продвижения робототехники в физическом мире.

English

Achieving dexterous robotic manipulation in the real world heavily relies on human supervision and algorithm engineering, which becomes a central bottleneck in the pursuit of general physical intelligence. Although emerging coding agents can generate code to automate algorithm search, their successes remain largely confined in digital environments. We conjecture that the missing abstraction to automate robotics research is a repeatable feedback loop for real-world policy improvement: reset the scene, execute a policy, verify the outcome, and refine the next iteration. To bridge this gap, we introduce ENPIRE, a harness framework for coding agents that instantiates this physical feedback routine with four core modules: an Environment module (EN) for automatic reset and verification, a Policy Improvement module (PI) that launches policy refinement, a Rollout module (R) to evaluate policies with one or multiple physical robots operating in parallel, and an Evolution module (E) in which coding agents analyze logs, consult literature, improve training infrastructure and algorithm code to address failure modes. This closed-loop system transforms real-world manipulation learning into a controllable optimization procedure, minimizing human effort while allowing fair ablations across training recipe and agent variants. Powered by ENPIRE, frontier coding agents can autonomously train a policy to achieve a 99% success rate on challenging, dexterous manipulation tasks, such as organizing a pin box, fastening a zip tie, and tool use, a process that further accelerates when we dispatch an agent team on a robot fleet. Our results suggest a practical and scalable path toward deploying coding agents to autonomously advancing robotics in the physical world.