AIRS-Bench: набор задач для научных агментов в области передовых исследований ИИ
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
February 6, 2026
Авторы: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) обладают значительным потенциалом для развития научных исследований. Чтобы ускорить этот прогресс, мы представляем AIRS-Bench (AI Research Science Benchmark) — набор из 20 задач, заимствованных из передовых научных статей по машинному обучению. Эти задачи охватывают различные области, включая языковое моделирование, математику, биоинформатику и прогнозирование временных рядов. Задачи AIRS-Bench оценивают агентские возможности на протяжении всего жизненного цикла исследования — от генерации идей и анализа экспериментов до итеративного улучшения — без предоставления базового кода. Формат задач AIRS-Bench является гибким, что позволяет легко интегрировать новые задачи и проводить строгое сравнение различных агентских архитектур. Мы устанавливаем базовые уровни с использованием передовых моделей в сочетании с последовательными и параллельными scaffolding-подходами. Наши результаты показывают, что агенты превосходят лучшие человеческие результаты (SOTA) в четырех задачах, но не достигают их в шестнадцати других. Даже когда агенты превосходят человеческие benchmarks, они не достигают теоретического потолка производительности для базовых задач. Эти результаты свидетельствуют о том, что AIRS-Bench далек от насыщения и предлагает значительный простор для улучшений. Мы открываем исходные коды определений задач AIRS-Bench и код для оценки, чтобы стимулировать дальнейшее развитие автономных научных исследований.
English
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.