EurekAgent: Engenharia de Ambiente de Agentes é Tudo o Que Você Precisa para Descoberta Científica Autônoma

Resumo

Agentes baseados em LLM têm demonstrado um potencial crescente na automatização da descoberta científica. Dado uma métrica otimizável e um ambiente de execução, eles podem propor, validar e iterar soluções científicas, e têm produzido resultados que superam abordagens projetadas por humanos. À medida que as capacidades dos modelos continuam a melhorar, argumentamos que o gargalo para a descoberta científica autônoma está se deslocando da prescrição de fluxos de trabalho dos agentes para o design de ambientes dos agentes: os recursos, restrições e interfaces que moldam o comportamento dos agentes. Enquadramos isso como engenharia de ambiente: construir ambientes que amplificam comportamentos produtivos, como exploração aberta, gerenciamento sistemático de artefatos e colaboração entre agentes, enquanto suprimem comportamentos prejudiciais, como manipulação de recompensas e supervisão humana de alto atrito. Apresentamos o EurekAgent, um sistema de agente com engenharia de ambiente para descoberta científica autônoma orientada por métrica. O EurekAgent projeta o ambiente ao longo de quatro dimensões: engenharia de permissões para execução limitada do agente e avaliação isolada; engenharia de artefatos para colaboração baseada em sistema de arquivos e Git; engenharia de orçamento para exploração consciente de orçamento; e engenharia de humano-no-circuito para fácil supervisão e intervenção humana. O EurekAgent estabelece novos resultados de estado da arte em múltiplas tarefas de matemática, engenharia de kernel e aprendizado de máquina, incluindo novos resultados de estado da arte para empacotamento de 26 círculos descobertos com menos de US$ 11 em custo total de API. Disponibilizamos nosso código e resultados como código aberto, e defendemos a engenharia de ambiente como uma direção central de pesquisa para o desenvolvimento de agentes de pesquisa autônomos confiáveis.

English

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.