Benchmarking von KI-Agenten zur Bewältigung wissenschaftlicher Herausforderungen über verschiedene Skalen hinweg

Zusammenfassung

KI-Agenten werden zunehmend entwickelt, um wissenschaftliche Entdeckungen zu beschleunigen, dennoch sind ihre praktischen Fähigkeiten in realen Forschungsumgebungen nach wie vor kaum verstanden. Vorhandene Benchmarks für KI-Agenten erfassen selten die Komplexität, Heterogenität und das erweiterte Denken, das für wissenschaftliche Arbeit erforderlich ist, während Benchmarks für wissenschaftliche Aufgaben die Forschung oft auf statische, direkte Probleme reduzieren und nur begrenzte Unterstützung für interaktive Bewertung bieten. Hier stellen wir SciAgentArena vor, einen systematischen Benchmark zur Bewertung von KI-Agenten in realen wissenschaftlichen Forschungsszenarien, die aus neu entstehenden Anforderungen mehrerer Disziplinen abgeleitet sind. SciAgentArena umfasst etwa 200 Aufgaben mit schrittweiser Verifikation und einer interaktiven, agentenunabhängigen Umgebung zur Bewertung verschiedener KI-Agenten. Mithilfe dieses Benchmarks stellen wir fest, dass aktuelle Agenten effektiv zu klar definierten Datenanalyse-Workflows beitragen können, insbesondere wenn die Aufgabenstruktur und die Bewertungskriterien klar sind. Ihre Leistung bleibt jedoch über wissenschaftliche Kontexte hinweg uneinheitlich: Agenten haben Schwierigkeiten, wirklich neuartige Erkenntnisse zu generieren, eigenständige Exploration aufrechtzuerhalten und robuste Lösungen für offene Forschungsfragen zu formulieren. Darüber hinaus charakterisieren wir häufige Fehlermodi über Agenten hinweg und identifizieren Möglichkeiten zur Verbesserung ihrer Zuverlässigkeit, Autonomie und wissenschaftlichen Denkfähigkeit. Zusammengenommen bietet SciAgentArena einen praktischen Rahmen zur Messung des Fortschritts von KI-Agenten für die Wissenschaft und zur Gestaltung zukünftiger Agenten, die in der Lage sind, komplexe wissenschaftliche Herausforderungen zu bewältigen. Der vollständige Code, die Aufgaben und Datensätze sind über diesen Link zugänglich: https://sciagentarena.github.io/.

English

AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, whereas benchmarks for scientific tasks often reduce research to static, direct problems and provide limited support for interactive evaluation. Here, we introduce SciAgentArena, a systematic benchmark for evaluating AI agents in real-world scientific research scenarios drawn from emerging needs across multiple domains. SciAgentArena comprises approximately 200 tasks with stepwise verification and an interactive, agent-agnostic environment for assessing diverse AI agents. Using this benchmark, we find that current agents can contribute effectively to well-specified data-analysis workflows, particularly when the task structure and evaluation criteria are clear. However, their performance remains uneven across scientific contexts: agents struggle to generate genuinely novel insights, sustain self-directed exploration, and formulate robust solutions for open-ended research questions. We further characterize common failure modes across agents and identify opportunities for improving their reliability, autonomy, and scientific reasoning. Together, SciAgentArena provides a practical framework for measuring progress in AI agents for science and for guiding the design of future agents capable of addressing complex scientific challenges. Full codes, tasks, and datasets can be accessed via this link: https://sciagentarena.github.io/.