AIRS-Bench: una Suite di Compiti per Agenti di Intelligenza Artificiale nella Ricerca Scientifica di Frontiera

Abstract

Gli agenti LLM detengono un potenziale significativo per far progredire la ricerca scientifica. Per accelerare questo progresso, presentiamo AIRS-Bench (l'AI Research Science Benchmark), una suite di 20 task provenienti da articoli scientifici all'avanguardia nel campo dell'apprendimento automatico. Questi task spaziano su domini diversi, inclusi il language modeling, la matematica, la bioinformatica e le previsioni su serie temporali. I task di AIRS-Bench valutano le capacità agentizie sull'intero ciclo di vita della ricerca – inclusa la generazione di idee, l'analisi degli esperimenti e l'affinamento iterativo – senza fornire codice di base. Il formato dei task di AIRS-Bench è versatile, consentendo una facile integrazione di nuovi task e un confronto rigoroso tra diversi framework agentizi. Stabiliamo dei benchmark di riferimento utilizzando modelli all'avanguardia abbinati a scaffold sia sequenziali che paralleli. I nostri risultati mostrano che gli agenti superano lo stato dell'arte umano in quattro task, ma non riescono a eguagliarlo in altri sedici. Anche quando gli agenti superano i benchmark umani, non raggiungono il limite teorico delle prestazioni per i task sottostanti. Questi risultati indicano che AIRS-Bench è ben lontano dalla saturazione e offre ampio margine di miglioramento. Rendiamo open-source le definizioni dei task di AIRS-Bench e il codice di valutazione per catalizzare ulteriori sviluppi nella ricerca scientifica autonoma.

English

LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.

AIRS-Bench: una Suite di Compiti per Agenti di Intelligenza Artificiale nella Ricerca Scientifica di Frontiera

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

Abstract

Support