AutoResearchBench : Évaluation comparative d'agents IA sur la découverte complexe de littérature scientifique
AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery
April 28, 2026
Auteurs: Lei Xiong, Kun Luo, Ziyi Xia, Wenbo Zhang, Jin-Ge Yao, Zheng Liu, Jingying Shao, Jianlyu Chen, Hongjin Qian, Xi Yang, Qian Yu, Hao Li, Chen Yue, Xiaan Du, Yuyang Wang, Yesheng Liu, Haiyu Xu, Zhicheng Dou
cs.AI
Résumé
La recherche scientifique autonome progresse considérablement grâce au développement d'agents d'IA. Une étape clé de ce processus consiste à trouver la littérature scientifique appropriée, que ce soit pour explorer les connaissances existantes sur un problème de recherche ou pour acquérir des preuves permettant de vérifier des hypothèses et d'étayer des affirmations. Pour évaluer la capacité des agents d'IA à piloter ce processus, nous présentons AutoResearchBench, un benchmark dédié à la découverte autonome de littérature scientifique. AutoResearchBench se compose de deux types de tâches complémentaires : (1) la Recherche Approfondie, qui nécessite de retrouver un article cible spécifique via un processus d'exploration progressive en plusieurs étapes, et (2) la Recherche Étendue, qui exige de collecter de manière exhaustive un ensemble d'articles satisfaisant des conditions données. Par rapport aux benchmarks antérieurs sur la navigation web agentique, AutoResearchBench se distingue selon trois dimensions : il est axé sur la recherche, nécessitant une compréhension approfondie des concepts scientifiques ; centré sur la littérature, exigeant une utilisation fine d'informations détaillées ; et ouvert, impliquant un nombre inconnu d'articles qualifiés et nécessitant donc une raisonnement et une recherche délibérés tout au long du processus. Ces propriétés rendent AutoResearchBench particulièrement adapté à l'évaluation des capacités de recherche autonome, et extraordinairement difficile. Même les modèles de langage les plus puissants, bien qu'ayant largement maîtrisé des benchmarks généraux de navigation web agentique comme BrowseComp, n'atteignent que 9,39 % de précision sur la Recherche Approfondie et 9,31 % d'IoU sur la Recherche Étendue, tandis que de nombreuses autres bases de référence solides tombent en dessous de 5 %. Nous publions ouvertement le jeu de données, la pipeline d'évaluation et le code à l'adresse https://github.com/CherYou/AutoResearchBench pour faciliter les recherches futures dans cette direction.
English
Autonomous scientific research is significantly advanced thanks to the development of AI agents. One key step in this process is finding the right scientific literature, whether to explore existing knowledge for a research problem, or to acquire evidence for verifying assumptions and supporting claims. To assess AI agents' capability in driving this process, we present AutoResearchBench, a dedicated benchmark for autonomous scientific literature discovery. AutoResearchBench consists of two complementary task types: (1) Deep Research, which requires tracking down a specific target paper through a progressive, multi-step probing process, and (2) Wide Research, which requires comprehensively collecting a set of papers satisfying given conditions. Compared to previous benchmarks on agentic web browsing, AutoResearchBench is distinguished along three dimensions: it is research-oriented, calling for in-depth comprehension of scientific concepts; literature-focused, demanding fine-grained utilization of detailed information; and open-ended, involving an unknown number of qualified papers and thus requiring deliberate reasoning and search throughout. These properties make AutoResearchBench uniquely suited for evaluating autonomous research capabilities, and extraordinarily challenging. Even the most powerful LLMs, despite having largely conquered general agentic web-browsing benchmarks such as BrowseComp, achieve only 9.39% accuracy on Deep Research and 9.31% IoU on Wide Research, while many other strong baselines fall below 5%. We publicly release the dataset and evaluation pipeline to facilitate future research in this direction. We publicly release the dataset, evaluation pipeline, and code at https://github.com/CherYou/AutoResearchBench.