Évaluation comparative des agents d’IA pour relever des défis scientifiques à différentes échelles

Résumé

Les agents IA sont de plus en plus développés pour accélérer la découverte scientifique, mais leurs capacités pratiques en contexte de recherche réelle restent mal comprises. Les référentiels existants pour évaluer les agents IA capturent rarement la complexité, l'hétérogénéité et le raisonnement étendu qu'exigent les travaux scientifiques, tandis que les référentiels dédiés aux tâches scientifiques réduisent souvent la recherche à des problèmes statiques et directs, offrant un soutien limité pour une évaluation interactive. Nous présentons ici SciAgentArena, un référentiel systématique pour évaluer les agents IA dans des scénarios de recherche scientifique réels, issus de besoins émergents dans plusieurs domaines. SciAgentArena comprend environ 200 tâches avec une vérification par étapes et un environnement interactif et indépendant de l'agent pour évaluer divers agents IA. En utilisant ce référentiel, nous constatons que les agents actuels peuvent contribuer efficacement à des flux de travail d'analyse de données bien spécifiés, en particulier lorsque la structure de la tâche et les critères d'évaluation sont clairs. Cependant, leurs performances restent inégales selon les contextes scientifiques : les agents peinent à générer des perspectives véritablement nouvelles, à maintenir une exploration autonome et à formuler des solutions robustes pour des questions de recherche ouvertes. Nous caractérisons en outre les modes de défaillance courants chez les agents et identifions des opportunités pour améliorer leur fiabilité, leur autonomie et leur raisonnement scientifique. Dans l'ensemble, SciAgentArena fournit un cadre pratique pour mesurer les progrès des agents IA appliqués à la science et pour guider la conception de futurs agents capables de relever des défis scientifiques complexes. L'ensemble des codes, tâches et jeux de données sont accessibles via ce lien : https://sciagentarena.github.io/.

English

AI agents are increasingly being developed to accelerate scientific discovery, yet their practical capabilities in real research settings remain poorly understood. Existing benchmarks for AI agents rarely capture the complexity, heterogeneity, and extended reasoning required by scientific work, whereas benchmarks for scientific tasks often reduce research to static, direct problems and provide limited support for interactive evaluation. Here, we introduce SciAgentArena, a systematic benchmark for evaluating AI agents in real-world scientific research scenarios drawn from emerging needs across multiple domains. SciAgentArena comprises approximately 200 tasks with stepwise verification and an interactive, agent-agnostic environment for assessing diverse AI agents. Using this benchmark, we find that current agents can contribute effectively to well-specified data-analysis workflows, particularly when the task structure and evaluation criteria are clear. However, their performance remains uneven across scientific contexts: agents struggle to generate genuinely novel insights, sustain self-directed exploration, and formulate robust solutions for open-ended research questions. We further characterize common failure modes across agents and identify opportunities for improving their reliability, autonomy, and scientific reasoning. Together, SciAgentArena provides a practical framework for measuring progress in AI agents for science and for guiding the design of future agents capable of addressing complex scientific challenges. Full codes, tasks, and datasets can be accessed via this link: https://sciagentarena.github.io/.