AutoLab: Kunnen grensverleggende modellen langetermijn auto-onderzoeks- en engineeringstaken oplossen?

Samenvatting

Wetenschappelijke en technische vooruitgang is in essentie een iteratief proces op lange termijn: het voorstellen van wijzigingen, het uitvoeren van experimenten, het meten van resultaten en het continu verfijnen van artefacten. Toch evalueren bestaande benchmarks voor geavanceerde modellen voornamelijk ofwel eenmalige reacties ofwel kortetermijn agenttrajecten, waardoor ze de uitdagingen van aanhoudende iteratieve verbetering over langere tijdshorizonten niet vastleggen. Om dit hiaat aan te pakken, introduceren we AutoLab, een nieuwe benchmark voor uiterst langdurige gesloten-lusoptimalisatie. AutoLab bestaat uit 36 realistische, door experts samengestelde taken verspreid over vier uiteenlopende domeinen: systeemoptimalisatie, puzzels en uitdagingen, modelontwikkeling en CUDA-kerneloptimalisatie. Elke taak begint met een correcte maar bewust suboptimale basislijn en daagt agenten uit om deze te verbeteren binnen een strikt kloktijdbudget. Evaluatie van 17 state-of-the-art modellen toont aan dat de dominante voorspeller van succes niet de kwaliteit van de eerste poging van een agent is, maar de volharding in het herhaaldelijk benchmarken, bewerken en verwerken van empirische feedback. Hoewel claude-opus-4.6 sterke optimalisatiecapaciteiten op lange termijn vertoont, stoppen de meeste geavanceerde modellen, waaronder verschillende propriëtaire, voortijdig of putten ze hun budget uit met minimale vooruitgang. Deze resultaten onderstrepen het belang van tijdsbewustzijn en aanhoudende iteratie in autonome agenten. We stellen de volledige benchmark, het evaluatieharnas en de taakartefacten beschikbaar als open-source om onderzoek naar werkelijk capabele langetermijnagenten te versnellen.

English

Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier models primarily evaluate either single-turn responses or short-horizon agent trajectories, failing to capture the challenges of sustained iterative improvement over extended time horizons. To address this gap, we introduce AutoLab, a new benchmark for ultra long-horizon closed-loop optimization. AutoLab consists of 36 realistic, expert-curated tasks spanning four diverse domains: system optimization, puzzle & challenge, model development, and CUDA kernel optimization. Each task begins with a correct but deliberately suboptimal baseline and challenges agents to improve it within a strict wall-clock budget. Evaluating 17 state-of-the-art models reveals the dominant predictor of success is not the quality of an agent's initial attempt, but its persistence in repeatedly benchmarking, editing, and incorporating empirical feedback. While claude-opus-4.6 exhibits strong long-horizon optimization capabilities, most frontier models, including several proprietary ones, either terminate prematurely or exhaust their budgets with minimal progress. These results underscore the importance of time awareness and persistent iteration in autonomous agents. We open-source the full benchmark, evaluation harness, and task artifacts, to accelerate research toward truly capable long-horizon agents.