EurekAgent: La ingeniería del entorno del agente es todo lo que se necesita para el descubrimiento científico autónomo

Resumen

Los agentes basados en LLM han demostrado un potencial creciente en la automatización del descubrimiento científico. Dada una métrica optimizable y un entorno de ejecución, pueden proponer, validar e iterar soluciones científicas, produciendo resultados que superan a los enfoques diseñados por humanos. A medida que las capacidades de los modelos continúan mejorando, argumentamos que el cuello de botella para el descubrimiento científico autónomo está pasando de prescribir flujos de trabajo de agentes a diseñar entornos para agentes: los recursos, restricciones e interfaces que moldean el comportamiento del agente. Enmarcamos esto como ingeniería del entorno: construir entornos que amplifiquen comportamientos productivos, como la exploración abierta, la gestión sistemática de artefactos y la colaboración entre agentes, mientras suprimen comportamientos dañinos, como el aprovechamiento de recompensas y la supervisión humana de alta fricción. Presentamos EurekAgent, un sistema de agente con entorno diseñado para el descubrimiento científico autónomo guiado por métricas. EurekAgent diseña el entorno en cuatro dimensiones: ingeniería de permisos para la ejecución acotada del agente y la evaluación aislada; ingeniería de artefactos para la colaboración basada en sistema de archivos y Git; ingeniería de presupuesto para la exploración consciente del gasto; e ingeniería de intervención humana para una supervisión e intervención sencillas. EurekAgent establece nuevos resultados de última generación en múltiples tareas de matemáticas, ingeniería de kernels y aprendizaje automático, incluidos nuevos resultados de última generación en empaquetamiento de 26 círculos descubiertos con menos de 11 dólares en costos totales de API. Publicamos nuestro código y resultados en código abierto, y abogamos por la ingeniería del entorno como una dirección de investigación central para el desarrollo de agentes de investigación autónomos fiables.

English

LLM-based agents have shown increasing potential in automating scientific discovery. Given an optimizable metric and an execution environment, they can propose, validate, and iterate scientific solutions, and have produced results that outperform human-designed approaches. As model capabilities continue to improve, we argue that the bottleneck for autonomous scientific discovery is shifting from prescribing agent workflows to designing agent environments: the resources, constraints, and interfaces that shape agent behavior. We frame this as environment engineering: building environments that amplify productive behaviors, such as open-ended exploration, systematic artifact management, and inter-agent collaboration, while suppressing harmful behaviors, such as reward hacking and high-friction human oversight. We present EurekAgent, an environment-engineered agent system for metric-driven autonomous scientific discovery. EurekAgent engineers the environment along four dimensions: permissions engineering for bounded agent execution and isolated evaluation; artifact engineering for filesystem and Git-based collaboration; budget engineering for budget-aware exploration; and human-in-the-loop engineering for easy human supervision and intervention. EurekAgent sets new state-of-the-art results on multiple mathematics, kernel engineering, and machine learning tasks, including new state-of-the-art 26-circle packing results discovered with less than $11 in total API cost. We open-source our code and results, and call for environment engineering as a core research direction for developing reliable autonomous research agents.