ChatPaper.aiChatPaper

AIRS-Bench: Eine Aufgabensammlung für KI-Forschungswissenschaftsagenten an der Grenze des Machbaren

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

February 6, 2026
papers.authors: Alisia Lupidi, Bhavul Gauri, Thomas Simon Foster, Bassel Al Omari, Despoina Magka, Alberto Pepe, Alexis Audran-Reiss, Muna Aghamelu, Nicolas Baldwin, Lucia Cipolina-Kun, Jean-Christophe Gagnon-Audet, Chee Hau Leow, Sandra Lefdal, Hossam Mossalam, Abhinav Moudgil, Saba Nazir, Emanuel Tewolde, Isabel Urrego, Jordi Armengol Estape, Amar Budhiraja, Gaurav Chaurasia, Abhishek Charnalia, Derek Dunfield, Karen Hambardzumyan, Daniel Izcovich, Martin Josifoski, Ishita Mediratta, Kelvin Niu, Parth Pathak, Michael Shvartsman, Edan Toledo, Anton Protopopov, Roberta Raileanu, Alexander Miller, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach
cs.AI

papers.abstract

LLM-Agenten bergen ein erhebliches Potenzial für die Weiterentwicklung der wissenschaftlichen Forschung. Um diesen Fortschritt zu beschleunigen, stellen wir AIRS-Bench (den AI Research Science Benchmark) vor, eine Sammlung von 20 Aufgaben, die aus aktuellen maschinellen Lernpublikationen stammen. Diese Aufgaben umfassen verschiedene Domänen, darunter Sprachmodellierung, Mathematik, Bioinformatik und Zeitreihenvorhersage. Die AIRS-Bench-Aufgaben bewerten agentenbasierte Fähigkeiten über den gesamten Forschungslebenszyklus – einschließlich Ideengenerierung, Experimentanalyse und iterativer Verbesserung – ohne bereitgestellten Referenzcode. Das AIRS-Bench-Aufgabenformat ist vielseitig und ermöglicht eine einfache Integration neuer Aufgaben sowie einen rigorosen Vergleich verschiedener Agenten-Frameworks. Wir etablieren Baseline-Werte mit modernsten Modellen in Kombination mit sequenziellen und parallelen Scaffolds. Unsere Ergebnisse zeigen, dass Agenten bei vier Aufgaben den menschlichen State-of-the-Art übertreffen, bei sechzehn anderen jedoch darunter bleiben. Selbst wenn Agenten menschliche Benchmarks übertreffen, erreichen sie nicht die theoretische Leistungsobergrenze der zugrundeliegenden Aufgaben. Diese Ergebnisse deuten darauf hin, dass AIRS-Bench noch lange nicht ausgeschöpft ist und erheblichen Verbesserungsspielraum bietet. Wir veröffentlichen die AIRS-Bench-Aufgabendefinitionen und den Evaluierungscode als Open Source, um die weitere Entwicklung autonomer wissenschaftlicher Forschung voranzutreiben.
English
LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Science Benchmark), a suite of 20 tasks sourced from state-of-the-art machine learning papers. These tasks span diverse domains, including language modeling, mathematics, bioinformatics, and time series forecasting. AIRS-Bench tasks assess agentic capabilities over the full research lifecycle -- including idea generation, experiment analysis and iterative refinement -- without providing baseline code. The AIRS-Bench task format is versatile, enabling easy integration of new tasks and rigorous comparison across different agentic frameworks. We establish baselines using frontier models paired with both sequential and parallel scaffolds. Our results show that agents exceed human SOTA in four tasks but fail to match it in sixteen others. Even when agents surpass human benchmarks, they do not reach the theoretical performance ceiling for the underlying tasks. These findings indicate that AIRS-Bench is far from saturated and offers substantial room for improvement. We open-source the AIRS-Bench task definitions and evaluation code to catalyze further development in autonomous scientific research.
PDF632February 11, 2026