EurekAgent : l'ingénierie de l'environnement des agents est tout ce qu'il vous faut pour la découverte scientifique autonome

Résumé

Les agents basés sur les modèles de langage (LLM) montrent un potentiel croissant pour automatiser la découverte scientifique. Dotés d'une métrique optimisable et d'un environnement d'exécution, ils peuvent proposer, valider et itérer des solutions scientifiques, et ont produit des résultats surpassant les approches conçues par des humains. Alors que les capacités des modèles continuent de s'améliorer, nous soutenons que le goulot d'étranglement pour la découverte scientifique autonome se déplace de la prescription de flux de travail d'agents vers la conception d'environnements d'agents : les ressources, contraintes et interfaces qui façonnent le comportement des agents. Nous cadrons cela comme de l'ingénierie d'environnement : construire des environnements qui amplifient les comportements productifs, tels que l'exploration ouverte, la gestion systématique des artefacts et la collaboration inter-agents, tout en supprimant les comportements nuisibles, comme le piratage de récompenses (reward hacking) et une supervision humaine à friction élevée. Nous présentons EurekAgent, un système d'agents basé sur l'ingénierie d'environnement pour la découverte scientifique autonome pilotée par métrique. EurekAgent conçoit l'environnement selon quatre dimensions : l'ingénierie des permissions pour une exécution bornée des agents et une évaluation isolée ; l'ingénierie des artefacts pour la collaboration basée sur le système de fichiers et Git ; l'ingénierie budgétaire pour une exploration tenant compte du budget ; et l'ingénierie du boucle humaine (human-in-the-loop) pour une supervision et une intervention humaines faciles. EurekAgent établit de nouveaux résultats de pointe sur plusieurs tâches en mathématiques, ingénierie de noyaux (kernel engineering) et apprentissage automatique, y compris de nouveaux résultats de pointe pour l'empilement de 26 cercles, découverts pour un coût total d'API inférieur à 11 $. Nous publions notre code et nos résultats en open source, et appelons à faire de l'ingénierie d'environnement une direction de recherche centrale pour développer des agents de recherche autonomes fiables.

English

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.