EurekAgent: Для автономного научного открытия достаточно только инженерии среды агента

Аннотация

Агенты на основе LLM демонстрируют растущий потенциал в автоматизации научных открытий. При наличии оптимизируемой метрики и среды выполнения они могут предлагать, проверять и итеративно улучшать научные решения, достигая результатов, превосходящих созданные человеком подходы. По мере совершенствования возможностей моделей мы утверждаем, что узким местом автономного научного поиска становится переход от предписывания рабочих процессов агентов к проектированию их среды: ресурсов, ограничений и интерфейсов, формирующих поведение агента. Мы рассматриваем это как инженерию среды — создание сред, усиливающих продуктивное поведение (например, открытое исследование, систематическое управление артефактами и взаимодействие между агентами) и подавляющих вредоносное (например, взлом вознаграждений и обременительный надзор человека). Мы представляем EurekAgent — систему агентов, основанную на инженерии среды для метрико-ориентированного автономного научного поиска. EurekAgent проектирует среду по четырем направлениям: инженерия разрешений для ограниченного выполнения агентов и изолированной оценки; инженерия артефактов для совместной работы на основе файловой системы и Git; инженерия бюджета для исследования с учетом затрат; и инженерия с участием человека для удобного контроля и вмешательства. EurekAgent устанавливает новые передовые результаты для нескольких задач в области математики, ядерной инженерии и машинного обучения, включая новые рекорды упаковки 26 кругов, достигнутые при общей стоимости API менее 11 долларов. Мы публикуем в открытом доступе наш код и результаты и призываем рассматривать инженерию среды как ключевое направление исследований для создания надежных автономных исследовательских агентов.

English

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.