Sur les limites et les opportunités des relecteurs IA : Examen des relectures d'articles de la famille Nature par 45 scientifiques experts

Résumé

Avec les progrès des capacités de l'IA, des réviseurs IA commencent à être déployés dans l'évaluation scientifique par les pairs, mais leur compétence et leur crédibilité restent en question : de nombreux scientifiques les considèrent simplement comme des systèmes probabilistes dépourvus de l'expertise nécessaire pour évaluer la recherche, tandis que d'autres chercheurs sont plus optimistes quant à leur niveau de préparation, sans preuves concrètes. Il est essentiel de comprendre ce que les réviseurs IA réussissent bien, où ils échouent et quels défis subsistent. Cependant, les évaluations existantes des réviseurs IA se sont concentrées sur la concordance de leurs verdicts avec ceux des humains (par exemple, alignement des scores, prédiction d'acceptation), ce qui est insuffisant pour caractériser leurs capacités et leurs limites. Dans cet article, nous comblons cette lacune par le biais d'une étude d'annotation experte à grande échelle, dans laquelle 45 scientifiques spécialisés dans les sciences physiques, biologiques et de la santé ont passé 469 heures à évaluer 2 960 critiques individuelles (chacune ciblant un aspect spécifique d'un article) provenant de révisions rédigées par des humains et générées par l'IA de 82 articles de la famille Nature, selon les critères de correction, de significativité et de suffisance des preuves. Sur un composite des trois dimensions, un agent de révision alimenté par GPT-5.2 obtient un score supérieur à celui du réviseur humain le mieux noté pour chaque article (60,0 % contre 48,2 %, p = 0,009), tandis que les trois réviseurs IA (y compris Gemini 3.0 Pro et Claude Opus 4.5) surpassent le réviseur humain le moins bien noté dans toutes les dimensions. Les critiques précises des réviseurs IA sont également plus souvent jugées significatives et bien étayées, et mettent en lumière 26 % de problèmes distincts qu'aucun humain ne soulève. Cependant, les réviseurs IA se chevauchent beaucoup plus que les humains (21 % contre 3 % pour les paires de réviseurs), et présentent 16 faiblesses récurrentes que les humains ne partagent pas, telles qu'une connaissance limitée du sous-domaine, un manque de gestion du contexte long sur plusieurs fichiers, et une attitude trop critique sur des questions mineures. Dans l'ensemble, nos résultats positionnent les réviseurs IA actuels comme des compléments, et non des substituts, des réviseurs humains.

English

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.