Über die Grenzen und Möglichkeiten von KI-Gutachtern: Überprüfung der Gutachten von Nature-Family-Artikeln mit 45 Expertenwissenschaftlern

Zusammenfassung

Mit der Weiterentwicklung der KI-Fähigkeiten werden KI-Gutachter zunehmend in der wissenschaftlichen Peer-Review eingesetzt, doch ihre Leistungsfähigkeit und Glaubwürdigkeit bleiben fraglich: Viele Wissenschaftler betrachten sie lediglich als probabilistische Systeme ohne die nötige Expertise zur Bewertung von Forschung, während andere Forscher optimistischer hinsichtlich ihrer Einsatzbereitschaft sind, ohne konkrete Belege zu haben. Es ist unerlässlich zu verstehen, was KI-Gutachter gut können, wo ihre Schwächen liegen und welche Herausforderungen bestehen bleiben. Bisherige Evaluierungen von KI-Gutachtern konzentrierten sich jedoch darauf, ob ihre Beurteilungen mit menschlichen Beurteilungen übereinstimmen (z. B. Übereinstimmung von Bewertungen, Vorhersage von Annahmeentscheidungen), was unzureichend ist, um ihre Fähigkeiten und Grenzen zu charakterisieren. In diesem Artikel schließen wir diese Lücke durch eine groß angelegte Experten-Annotationsstudie, in der 45 Wissenschaftler aus den Bereichen Physik, Biologie und Gesundheitswissenschaften 469 Stunden damit verbrachten, 2.960 einzelne Kritikpunkte (jeweils einen spezifischen Aspekt eines Artikels betreffend) aus menschlich verfassten und KI-generierten Gutachten zu 82 Nature-Artikeln hinsichtlich Korrektheit, Signifikanz und Hinlänglichkeit der Evidenz zu bewerten. In einem Gesamtmaß aus allen drei Dimensionen erzielte ein auf GPT-5.2 basierender Begutachtungsagent eine höhere Punktzahl als der jeweils bestbewertete menschliche Gutachter eines Artikels (60,0 % vs. 48,2 %, p = 0,009), während alle drei KI-Gutachter (einschließlich Gemini 3.0 Pro und Claude Opus 4.5) in jeder Dimension den am schlechtesten bewerteten menschlichen Gutachter übertrafen. Zudem wurden die korrekten Kritikpunkte der KI-Gutachter häufiger als signifikant und gut belegt eingestuft, und sie deckten 26 % der Probleme auf, die kein Mensch anspricht. Allerdings überschneiden sich KI-Gutachter weitaus stärker als Menschen (21 % vs. 3 % bei Gutachterpaaren) und weisen 16 wiederkehrende Schwächen auf, die Menschen nicht teilen, wie etwa begrenzte Fachgebietskenntnisse, fehlendes Management langer Kontexte über mehrere Dateien hinweg und eine übermäßig kritische Haltung gegenüber kleineren Mängeln. Insgesamt positionieren unsere Ergebnisse die derzeitigen KI-Gutachter als Ergänzung zu, nicht als Ersatz für menschliche Gutachter.

English

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.