ReviewerToo: Moet AI Deel Uitmaken Van Het Programmacomité? Een Blik Op De Toekomst Van Peer Review
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
October 9, 2025
Auteurs: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI
Samenvatting
Peer review is de hoeksteen van wetenschappelijk publiceren, maar kampt met
inconsistenties, subjectiviteit van beoordelaars en schaalbaarheidsuitdagingen. Wij
introduceren ReviewerToo, een modulair raamwerk voor het bestuderen en inzetten van
AI-ondersteunde peer review om menselijk oordeel aan te vullen met systematische en
consistente beoordelingen. ReviewerToo ondersteunt systematische experimenten met
gespecialiseerde reviewer-persona's en gestructureerde evaluatiecriteria, en kan
gedeeltelijk of volledig worden geïntegreerd in echte conferentiewerkstromen. Wij valideren
ReviewerToo op een zorgvuldig samengestelde dataset van 1.963 paper inzendingen van ICLR
2025, waar onze experimenten met het gpt-oss-120b model een nauwkeurigheid van 81,8% bereiken
voor de taak van het categoriseren van een paper als accept/reject, vergeleken met 83,9% voor de
gemiddelde menselijke beoordelaar. Daarnaast worden door ReviewerToo gegenereerde reviews
beoordeeld als hogere kwaliteit dan het menselijk gemiddelde door een LLM-rechter, hoewel ze nog steeds
achterblijven bij de sterkste expertbijdragen. Onze analyse belicht domeinen waar AI-beoordelaars uitblinken
(bijv. feitencontrole, literatuurdekking) en waar ze moeite hebben (bijv. het beoordelen van methodologische
nieuwigheid en theoretische bijdragen), wat het blijvende belang van menselijke expertise onderstreept. Op basis
van deze bevindingen stellen wij richtlijnen voor voor het integreren van AI in peer-review processen, waarbij we
laten zien hoe AI consistentie, dekking en eerlijkheid kan verbeteren terwijl complexe evaluatieve oordelen worden
overgelaten aan domeinexperts. Ons werk biedt een basis voor systematische, hybride peer-review systemen die
meeschalen met de groei van wetenschappelijk publiceren.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from
inconsistencies, reviewer subjectivity, and scalability challenges. We
introduce ReviewerToo, a modular framework for studying and deploying
AI-assisted peer review to complement human judgment with systematic and
consistent assessments. ReviewerToo supports systematic experiments with
specialized reviewer personas and structured evaluation criteria, and can be
partially or fully integrated into real conference workflows. We validate
ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR
2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy
for the task of categorizing a paper as accept/reject compared to 83.9% for the
average human reviewer. Additionally, ReviewerToo-generated reviews are rated
as higher quality than the human average by an LLM judge, though still trailing
the strongest expert contributions. Our analysis highlights domains where AI
reviewers excel (e.g., fact-checking, literature coverage) and where they
struggle (e.g., assessing methodological novelty and theoretical
contributions), underscoring the continued need for human expertise. Based on
these findings, we propose guidelines for integrating AI into peer-review
pipelines, showing how AI can enhance consistency, coverage, and fairness while
leaving complex evaluative judgments to domain experts. Our work provides a
foundation for systematic, hybrid peer-review systems that scale with the
growth of scientific publishing.