Over de beperkingen en mogelijkheden van AI-beoordelaars: het beoordelen van de reviews van Nature-familieartikelen met 45 expertwetenschappers

Samenvatting

Met de vooruitgang van AI-mogelijkheden worden AI-beoordelaars steeds vaker ingezet bij wetenschappelijke peer review, maar hun capaciteit en geloofwaardigheid blijven ter discussie staan: veel wetenschappers beschouwen ze eenvoudigweg als probabilistische systemen zonder de expertise om onderzoek te evalueren, terwijl andere onderzoekers optimistischer zijn over hun gereedheid zonder concreet bewijs. Inzicht in wat AI-beoordelaars goed doen, waar ze tekortschieten en welke uitdagingen er nog resteren, is essentieel. Bestaande evaluaties van AI-beoordelaars hebben zich echter gericht op de vraag of hun oordelen overeenkomen met menselijke oordelen (bijv. score-overeenstemming, acceptatievoorspelling), wat onvoldoende is om hun mogelijkheden en beperkingen te karakteriseren. In dit artikel vullen we deze leemte met een grootschalige expertannotatiestudie, waarin 45 domeinwetenschappers uit de natuur-, biologische en gezondheidswetenschappen 469 uur besteedden aan het beoordelen van 2.960 individuele kritiekpunten (elk gericht op een specifiek aspect van een artikel) van zowel door mensen geschreven als door AI gegenereerde reviews van 82 Nature-familie artikelen op correctheid, significantie en toereikendheid van bewijs. Op een samengestelde score over alle drie dimensies scoort een beoordelingsagent aangedreven door GPT-5.2 hoger dan de hoogst gewaardeerde menselijke beoordelaar per artikel (60,0% vs. 48,2%, p = 0,009), terwijl alle drie AI-beoordelaars (waaronder Gemini 3.0 Pro en Claude Opus 4.5) op elke dimensie de laagst gewaardeerde menselijke beoordelaar overtreffen. Nauwkeurige kritiek van AI-beoordelaars wordt ook vaker als significant en goed onderbouwd beoordeeld, en brengt een aparte 26% van de kwesties aan het licht die geen enkele menselijke beoordelaar aankaart. AI-beoordelaars vertonen echter veel meer overlap dan mensen (21% vs. 3% voor paren van beoordelaars), en vertonen 16 terugkerende zwaktes die mensen niet delen, zoals beperkte kennis van het subdomein, gebrek aan beheer van lange context over meerdere bestanden, en een overdreven kritische houding ten opzichte van kleine kwesties. Al met al positioneren onze resultaten de huidige AI-beoordelaars als aanvullingen op, en niet als vervanging van, menselijke beoordelaars.

English

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.