AIRS-Bench: Um Conjunto de Tarefas para Agentes de IA de Fronteira na Pesquisa Científica

Resumo

Os agentes de LLM (Large Language Models) possuem um potencial significativo para impulsionar a pesquisa científica. Para acelerar esse progresso, apresentamos o AIRS-Bench (o *AI Research Science Benchmark*), um conjunto de 20 tarefas extraídas de artigos de ponta em aprendizado de máquina. Essas tarefas abrangem domínios diversos, incluindo modelagem de linguagem, matemática, bioinformática e previsão de séries temporais. As tarefas do AIRS-Bench avaliam capacidades agentes ao longo de todo o ciclo de vida da pesquisa — incluindo geração de ideias, análise de experimentos e refinamento iterativo — sem fornecer código de linha de base. O formato de tarefa do AIRS-Bench é versátil, permitindo a fácil integração de novas tarefas e uma comparação rigorosa entre diferentes estruturas agentes. Estabelecemos linhas de base usando modelos de fronteira emparelhados com estruturas de suporte (*scaffolds*) sequenciais e paralelas. Nossos resultados mostram que os agentes superam o estado da arte (SOTA) humano em quatro tarefas, mas não o igualam em outras dezesseis. Mesmo quando os agentes superam os benchmarks humanos, eles não atingem o teto teórico de desempenho para as tarefas subjacentes. Essas descobertas indicam que o AIRS-Bench está longe de estar saturado e oferece espaço substancial para melhorias. Disponibilizamos como código aberto as definições de tarefas e o código de avaliação do AIRS-Bench para catalisar um maior desenvolvimento na pesquisa científica autônoma.

English

LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.

AIRS-Bench: Um Conjunto de Tarefas para Agentes de IA de Fronteira na Pesquisa Científica

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Resumo

Support