AutoLab: Será que os Modelos de Fronteira Conseguem Resolver Tarefas de Pesquisa e Engenharia Automotiva de Longo Horizonte?

Resumo

O progresso científico e de engenharia é fundamentalmente um processo iterativo de longo horizonte: propor alterações, realizar experimentos, medir resultados e refinar continuamente artefatos. No entanto, os benchmarks existentes para modelos de fronteira avaliam predominantemente respostas de turno único ou trajetórias de agente de curto horizonte, não capturando os desafios da melhoria iterativa sustentada ao longo de horizontes temporais estendidos. Para preencher essa lacuna, apresentamos o AutoLab, um novo benchmark para otimização de malha fechada de horizonte ultra longo. O AutoLab consiste em 36 tarefas realistas, selecionadas por especialistas, abrangendo quatro domínios diversos: otimização de sistemas, quebra-cabeças e desafios, desenvolvimento de modelos e otimização de kernels CUDA. Cada tarefa começa com uma linha de base correta, mas deliberadamente subótima, e desafia os agentes a melhorá-la dentro de um orçamento estrito de tempo real. A avaliação de 17 modelos de ponta revela que o principal preditor de sucesso não é a qualidade da tentativa inicial de um agente, mas sua persistência em avaliar repetidamente, editar e incorporar feedback empírico. Enquanto o claude-opus-4.6 exibe fortes capacidades de otimização de longo horizonte, a maioria dos modelos de fronteira, incluindo vários proprietários, termina prematuramente ou esgota seus orçamentos com progresso mínimo. Esses resultados ressaltam a importância da consciência temporal e da iteração persistente em agentes autônomos. Disponibilizamos como código aberto o benchmark completo, o arcabouço de avaliação e os artefatos das tarefas, para acelerar a pesquisa em direção a agentes verdadeiramente capazes de atuar em horizontes longos.

English

Scientific and engineering progress is fundamentally a long-horizon iterative process: proposing changes, running experiments, measuring outcomes, and continuously refining artifacts. Yet existing benchmarks for frontier models primarily evaluate either single-turn responses or short-horizon agent trajectories, failing to capture the challenges of sustained iterative improvement over extended time horizons. To address this gap, we introduce AutoLab, a new benchmark for ultra long-horizon closed-loop optimization. AutoLab consists of 36 realistic, expert-curated tasks spanning four diverse domains: system optimization, puzzle & challenge, model development, and CUDA kernel optimization. Each task begins with a correct but deliberately suboptimal baseline and challenges agents to improve it within a strict wall-clock budget. Evaluating 17 state-of-the-art models reveals the dominant predictor of success is not the quality of an agent's initial attempt, but its persistence in repeatedly benchmarking, editing, and incorporating empirical feedback. While claude-opus-4.6 exhibits strong long-horizon optimization capabilities, most frontier models, including several proprietary ones, either terminate prematurely or exhaust their budgets with minimal progress. These results underscore the importance of time awareness and persistent iteration in autonomous agents. We open-source the full benchmark, evaluation harness, and task artifacts, to accelerate research toward truly capable long-horizon agents.