ChatPaper.aiChatPaper

スケール横断的な科学的課題に取り組むAIエージェントのベンチマーク評価

Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

June 10, 2026
著者: Tianyu Liu, Allen Xin Wang, Antonia Panescu, Lisa Xinyi Chen, Wenxin Long, Xinyu Wei, Yueqian Jing, Ziyao Zeng, Jihang Chen, Sihan Jiang, Ziqing Wang, Siyi Gu, Siyu Chen, Xinyang Hu, Haoran Shao, Leqi Xu, Wangjie Zheng, Zhiyuan Cao, Ada Fang, Botao Yu, Kunyang Sun, Rex Ying, Arman Cohan, Qingyu Chen, Lingzhou Xue, Kaize Ding, Yuanqi Du, Wengong Jin, Zhuoran Yang, Marinka Zitnik, James Zou, Hua Xu, Hongyu Zhao
cs.AI

要旨

AIエージェントは科学発見を加速するためにますます開発されているが、実際の研究環境におけるその実用的能力は依然として十分に理解されていない。既存のAIエージェント用ベンチマークは、科学作業に必要な複雑性、異質性、および長期にわたる推論をほとんど捉えていない。一方、科学タスク用のベンチマークは研究を静的な直接問題に還元し、対話的評価のサポートが限られている。ここでは、複数領域にわたる新興ニーズから抽出された実世界の科学研究シナリオにおいてAIエージェントを評価するための体系的なベンチマークであるSciAgentArenaを紹介する。SciAgentArenaは、段階的検証を備えた約200のタスクと、多様なAIエージェントを評価するための対話的かつエージェント非依存の環境から構成される。このベンチマークを用いて、現在のエージェントは明確に指定されたデータ分析ワークフローに効果的に貢献できること、特にタスク構造と評価基準が明確な場合に有効であることがわかった。しかし、その性能は科学的コンテキストによって不均一であり、エージェントは真に斬新な洞察を生成すること、自己主導的な探索を維持すること、および未解決の研究課題に対する頑健な解決策を定式化することに苦慮している。さらに、エージェント間の共通の障害モードを特徴付け、その信頼性、自律性、科学的推論を改善する機会を特定する。総じて、SciAgentArenaは科学のためのAIエージェントの進歩を測定し、複雑な科学的課題に対処できる将来のエージェントの設計を導くための実用的な枠組みを提供する。完全なコード、タスク、データセットは以下のリンクからアクセスできる:https://sciagentarena.github.io/。
English
AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, whereas benchmarks for scientific tasks often reduce research to static, direct problems and provide limited support for interactive evaluation. Here, we introduce SciAgentArena, a systematic benchmark for evaluating AI agents in real-world scientific research scenarios drawn from emerging needs across multiple domains. SciAgentArena comprises approximately 200 tasks with stepwise verification and an interactive, agent-agnostic environment for assessing diverse AI agents. Using this benchmark, we find that current agents can contribute effectively to well-specified data-analysis workflows, particularly when the task structure and evaluation criteria are clear. However, their performance remains uneven across scientific contexts: agents struggle to generate genuinely novel insights, sustain self-directed exploration, and formulate robust solutions for open-ended research questions. We further characterize common failure modes across agents and identify opportunities for improving their reliability, autonomy, and scientific reasoning. Together, SciAgentArena provides a practical framework for measuring progress in AI agents for science and for guiding the design of future agents capable of addressing complex scientific challenges. Full codes, tasks, and datasets can be accessed via this link: https://sciagentarena.github.io/.