ChatPaper.aiChatPaper

AIRS-Bench: un Conjunto de Tareas para Agentes de IA de Frontera en la Investigación Científica

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

February 6, 2026
Autores: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach
cs.AI

Resumen

Los agentes de LLM tienen un gran potencial para impulsar la investigación científica. Para acelerar este progreso, presentamos AIRS-Bench (el Benchmark de Ciencia e Investigación en IA), un conjunto de 20 tareas extraídas de artículos de vanguardia en aprendizaje automático. Estas tareas abarcan diversos dominios, incluyendo modelado de lenguaje, matemáticas, bioinformática y pronóstico de series temporales. Las tareas de AIRS-Bench evalúan capacidades agentiles a lo largo de todo el ciclo de vida de la investigación —incluyendo generación de ideas, análisis de experimentos y refinamiento iterativo— sin proporcionar código de referencia. El formato de tareas de AIRS-Bench es versátil, permitiendo la integración sencilla de nuevas tareas y la comparación rigurosa entre diferentes marcos agentiles. Establecemos líneas de base utilizando modelos de frontera combinados con andamiajes tanto secuenciales como paralelos. Nuestros resultados muestran que los agentes superan el estado del arte humano en cuatro tareas, pero no logran igualarlo en otras dieciséis. Incluso cuando los agentes superan los puntos de referencia humanos, no alcanzan el límite teórico de rendimiento para las tareas subyacentes. Estos hallazgos indican que AIRS-Bench está lejos de estar saturado y ofrece un margen sustancial de mejora. Liberamos como código abierto las definiciones de las tareas de AIRS-Bench y el código de evaluación para catalizar un mayor desarrollo en la investigación científica autónoma.
English
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.
PDF632February 11, 2026