AIRS-Bench: 프론티어 AI 연구 과학 에이전트를 위한 과제 모음
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
February 6, 2026
저자: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach
cs.AI
초록
LLM 에이전트는 과학 연구 발전에 상당한 가능성을 지니고 있습니다. 이러한 진전을 가속화하기 위해 최신 머신러닝 논문에서 발췌한 20개 과업으로 구성된 AIRS-Bench(AI Research Science Benchmark)를 소개합니다. 이러한 과업들은 언어 모델링, 수학, 생물정보학, 시계열 예측 등 다양한 영역을 아우릅니다. AIRS-Bench 과업들은 기준 코드를 제공하지 않은 상태에서 연구 전 주기(아이디어 생성, 실험 분석, 반복적 개선 포함)에 걸친 에이전트 능력을 평가합니다. AIRS-Bench 과업 형식은 다용도로 설계되어 새로운 과업의 쉬운 통합과 다양한 에이전트 프레임워크 간의 엄격한 비교가 가능합니다. 우리는 순차적 및 병렬 스캐폴드와 결합된 최첨단 모델을 사용하여 기준 성능을 설정했습니다. 결과에 따르면, 에이전트는 4개 과업에서 인간 최고 수준을 능가했지만 나머지 16개 과업에서는 이를 따라가지 못했습니다. 에이전트가 인간 벤치마크를 초과하는 경우에도 해당 기본 과업의 이론적 성능 한계에는 도달하지 못했습니다. 이러한 결과는 AIRS-Bench가 포화 상태와는 거리가 멀며 개선을 위한 상당한 여지가 있음을 시사합니다. 우리는 자율 과학 연구의 추가 발전을 촉진하기 위해 AIRS-Bench 과업 정의 및 평가 코드를 오픈소스로 공개합니다.
English
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.