ChatPaper.aiChatPaper

AIRS-Bench: フロンティアAI研究のための科学エージェント向けタスクスイート

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

February 6, 2026
著者: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach
cs.AI

要旨

LLMエージェントは科学的研究を推進する上で大きな可能性を秘めています。この進展を加速するため、我々はAIRS-Bench(AI Research Science Benchmark)を提案します。これは最先端の機械学習論文から抽出した20のタスクから構成されるベンチマークスイートです。これらのタスクは、言語モデリング、数学、バイオインフォマティクス、時系列予測など、多様な領域にわたります。AIRS-Benchのタスクは、ベースラインコードを提供せずに、研究ライフサイクル全体(アイデア生成、実験分析、反復的な改善を含む)にわたるエージェント能力を評価します。AIRS-Benchのタスク形式は汎用性が高く、新規タスクの容易な統合と様々なエージェントフレームワーク間の厳密な比較を可能にします。我々は、逐次的および並列的なスキャフォールドと組み合わせたフロンティアモデルを用いてベースラインを確立しました。結果は、エージェントが4つのタスクで人間のSOTAを上回る一方、他の16のタスクでは人間の記録に及ばないことを示しています。エージェントが人間のベンチマークを超える場合でも、基礎となるタスクの理論的性能限界には到達しません。これらの発見は、AIRS-Benchが飽和状態から程遠く、大幅な改善の余地があることを示唆しています。自律的な科学研究のさらなる発展を促進するため、AIRS-Benchのタスク定義と評価コードをオープンソースで公開します。
English
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.
PDF632February 11, 2026