EurekAgent: Agent-Umgebungs-Engineering ist alles, was man für autonome wissenschaftliche Entdeckungen braucht.

Zusammenfassung

LLM-basierte Agenten zeigen ein zunehmendes Potenzial zur Automatisierung wissenschaftlicher Entdeckungen. Gegeben eine optimierbare Metrik und eine Ausführungsumgebung können sie wissenschaftliche Lösungen vorschlagen, validieren und iterieren und haben Ergebnisse erzielt, die von Menschen entworfene Ansätze übertreffen. Da die Modellfähigkeiten weiter zunehmen, argumentieren wir, dass der Engpass für autonome wissenschaftliche Entdeckung sich vom Vorschreiben von Agenten-Workflows hin zur Gestaltung von Agentenumgebungen verschiebt: den Ressourcen, Einschränkungen und Schnittstellen, die das Agentenverhalten formen. Wir fassen dies als Umgebungsengineering zusammen: die Schaffung von Umgebungen, die produktive Verhaltensweisen wie ergebnisoffene Erkundung, systematische Artefaktverwaltung und Zusammenarbeit zwischen Agenten verstärken, während schädliche Verhaltensweisen wie Belohnungs-Hacking und reibungsreiche menschliche Aufsicht unterdrückt werden. Wir stellen EurekAgent vor, ein umgebungsentwickeltes Agentensystem für metrikgetriebene autonome wissenschaftliche Entdeckung. EurekAgent gestaltet die Umgebung entlang vier Dimensionen: Berechtigungsengineering für gebundene Agentenausführung und isolierte Evaluierung; Artefakt-Engineering für dateisystem- und Git-basierte Zusammenarbeit; Budget-Engineering für kostenbewusste Erkundung; und Human-in-the-Loop-Engineering für einfache menschliche Überwachung und Eingriffnahme. EurekAgent erzielt neue State-of-the-Art-Ergebnisse bei mehreren Mathematik-, Kernel-Engineering- und maschinellem Lernen-Aufgaben, darunter neu entdeckte State-of-the-Art-26-Kreis-Packungen mit Gesamt-API-Kosten von weniger als 11 US-Dollar. Wir veröffentlichen unseren Code und unsere Ergebnisse als Open Source und fordern, dass Umgebungsengineering als zentrale Forschungsrichtung für die Entwicklung zuverlässiger autonomer Forschungsagenten etabliert wird.

English

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.