AIRS-Bench : une Suite de Tâches pour les Agents d'IA de Recherche Scientifique de Pointe
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
February 6, 2026
papers.authors: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach
cs.AI
papers.abstract
Les agents LLM présentent un potentiel considérable pour faire progresser la recherche scientifique. Pour accélérer ces progrès, nous présentons AIRS-Bench (le *AI Research Science Benchmark*), une suite de 20 tâches issues d'articles récents en apprentissage automatique. Ces tâches couvrent des domaines variés, incluant la modélisation du langage, les mathématiques, la bioinformatique et la prévision de séries temporelles. Les tâches d'AIRS-Bench évaluent les capacités agentielles sur l'ensemble du cycle de vie de la recherche – incluant la génération d'idées, l'analyse d'expériences et l'affinement itératif – sans fournir de code de base. Le format des tâches AIRS-Bench est polyvalent, permettant une intégration aisée de nouvelles tâches et une comparaison rigoureuse entre différentes architectures agentielles. Nous établissons des performances de référence en utilisant des modèles de pointe associés à des échafaudages séquentiels et parallèles. Nos résultats montrent que les agents dépassent l'état de l'art humain dans quatre tâches, mais n'y parviennent pas dans seize autres. Même lorsque les agents surpassent les références humaines, ils n'atteignent pas le plafond de performance théorique des tâches sous-jacentes. Ces résultats indiquent qu'AIRS-Bench est loin d'être saturé et offre une marge d'amélioration substantielle. Nous ouvrons en accès libre les définitions des tâches AIRS-Bench et le code d'évaluation pour catalyser le développement ultérieur de la recherche scientifique autonome.
English
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.