ChatPaper.aiChatPaper

ReviewerToo: Sollte KI dem Programmkomitee beitreten? Ein Blick in die Zukunft des Peer-Review-Verfahrens

ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

October 9, 2025
papers.authors: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI

papers.abstract

Peer Review ist der Eckpfeiler der wissenschaftlichen Veröffentlichung, leidet jedoch unter Inkonsistenzen, subjektiven Bewertungen der Gutachter und Skalierbarkeitsproblemen. Wir stellen ReviewerToo vor, ein modulares Framework zur Erforschung und Implementierung von KI-unterstütztem Peer Review, um menschliche Urteile durch systematische und konsistente Bewertungen zu ergänzen. ReviewerToo ermöglicht systematische Experimente mit spezialisierten Gutachter-Personas und strukturierten Bewertungskriterien und kann teilweise oder vollständig in reale Konferenz-Workflows integriert werden. Wir validieren ReviewerToo anhand eines sorgfältig kuratierten Datensatzes von 1.963 eingereichten Artikeln der ICLR 2025, bei dem unsere Experimente mit dem gpt-oss-120b-Modell eine Genauigkeit von 81,8 % bei der Aufgabe, einen Artikel als „annehmen“ oder „ablehnen“ zu kategorisieren, erreichen, verglichen mit 83,9 % für den durchschnittlichen menschlichen Gutachter. Zudem werden von ReviewerToo generierte Gutachten von einem LLM-Bewerter als qualitativ höherwertig eingestuft als der menschliche Durchschnitt, auch wenn sie die stärksten Expertenbeiträge noch nicht übertreffen. Unsere Analyse hebt Bereiche hervor, in denen KI-Gutachter hervorragende Leistungen erbringen (z. B. Faktenprüfung, Literaturrecherche), und solche, in denen sie Schwierigkeiten haben (z. B. Bewertung methodischer Neuheit und theoretischer Beiträge), was den anhaltenden Bedarf an menschlicher Expertise unterstreicht. Basierend auf diesen Ergebnissen schlagen wir Richtlinien für die Integration von KI in Peer-Review-Prozesse vor und zeigen, wie KI Konsistenz, Abdeckung und Fairness verbessern kann, während komplexe Bewertungsentscheidungen den Fachexperten überlassen bleiben. Unsere Arbeit legt den Grundstein für systematische, hybride Peer-Review-Systeme, die mit dem Wachstum der wissenschaftlichen Veröffentlichungen skalieren können.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from inconsistencies, reviewer subjectivity, and scalability challenges. We introduce ReviewerToo, a modular framework for studying and deploying AI-assisted peer review to complement human judgment with systematic and consistent assessments. ReviewerToo supports systematic experiments with specialized reviewer personas and structured evaluation criteria, and can be partially or fully integrated into real conference workflows. We validate ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR 2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy for the task of categorizing a paper as accept/reject compared to 83.9% for the average human reviewer. Additionally, ReviewerToo-generated reviews are rated as higher quality than the human average by an LLM judge, though still trailing the strongest expert contributions. Our analysis highlights domains where AI reviewers excel (e.g., fact-checking, literature coverage) and where they struggle (e.g., assessing methodological novelty and theoretical contributions), underscoring the continued need for human expertise. Based on these findings, we propose guidelines for integrating AI into peer-review pipelines, showing how AI can enhance consistency, coverage, and fairness while leaving complex evaluative judgments to domain experts. Our work provides a foundation for systematic, hybrid peer-review systems that scale with the growth of scientific publishing.
PDF42October 13, 2025