EurekAgent: Agent-omgevingstechniek is alles wat je nodig hebt voor autonome wetenschappelijke ontdekking

Samenvatting

Op LLM gebaseerde agenten tonen een toenemende potentie in het automatiseren van wetenschappelijke ontdekkingen. Gegeven een optimaliseerbare metriek en een uitvoeringsomgeving kunnen zij wetenschappelijke oplossingen voorstellen, valideren en itereren, en hebben zij resultaten opgeleverd die door mensen ontworpen benaderingen overtreffen. Naarmate de modelcapaciteiten blijven verbeteren, stellen wij dat het knelpunt voor autonome wetenschappelijke ontdekking verschuift van het voorschrijven van agentwerkstromen naar het ontwerpen van agentomgevingen: de middelen, beperkingen en interfaces die het gedrag van agenten vormgeven. We beschouwen dit als omgevingsengineering: het bouwen van omgevingen die productief gedrag versterken, zoals open einde verkenning, systematisch beheer van artefacten en samenwerking tussen agenten, en schadelijk gedrag onderdrukken, zoals beloningsmanipulatie en menselijk toezicht met hoge wrijving. We presenteren EurekAgent, een omgevingstechnisch agentensysteem voor metriekgestuurde autonome wetenschappelijke ontdekking. EurekAgent ontwerpt de omgeving langs vier dimensies: rechtenengineering voor begrensde agentuitvoering en geïsoleerde evaluatie; artefactengineering voor bestandssysteem- en Git-gebaseerde samenwerking; budgetengineering voor budgetbewuste verkenning; en mens-in-de-lus engineering voor eenvoudig menselijk toezicht en interventie. EurekAgent behaalt nieuwe state-of-the-art resultaten op meerdere wiskunde-, kernel engineering- en machine learning-taken, waaronder nieuwe state-of-the-art 26-cirkel pakkingsresultaten die zijn ontdekt met minder dan $11 aan totale API-kosten. We stellen onze code en resultaten open source beschikbaar en roepen op om omgevingsengineering als een kernonderzoeksrichting te beschouwen voor het ontwikkelen van betrouwbare autonome onderzoeksagenten.

English

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.