ChatPaper.aiChatPaper

ReviewerToo: Moet AI Deel Uitmaken Van Het Programmacomité? Een Blik Op De Toekomst Van Peer Review

ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

October 9, 2025
Auteurs: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI

Samenvatting

Peer review is de hoeksteen van wetenschappelijk publiceren, maar kampt met inconsistenties, subjectiviteit van beoordelaars en schaalbaarheidsuitdagingen. Wij introduceren ReviewerToo, een modulair raamwerk voor het bestuderen en inzetten van AI-ondersteunde peer review om menselijk oordeel aan te vullen met systematische en consistente beoordelingen. ReviewerToo ondersteunt systematische experimenten met gespecialiseerde reviewer-persona's en gestructureerde evaluatiecriteria, en kan gedeeltelijk of volledig worden geïntegreerd in echte conferentiewerkstromen. Wij valideren ReviewerToo op een zorgvuldig samengestelde dataset van 1.963 paper inzendingen van ICLR 2025, waar onze experimenten met het gpt-oss-120b model een nauwkeurigheid van 81,8% bereiken voor de taak van het categoriseren van een paper als accept/reject, vergeleken met 83,9% voor de gemiddelde menselijke beoordelaar. Daarnaast worden door ReviewerToo gegenereerde reviews beoordeeld als hogere kwaliteit dan het menselijk gemiddelde door een LLM-rechter, hoewel ze nog steeds achterblijven bij de sterkste expertbijdragen. Onze analyse belicht domeinen waar AI-beoordelaars uitblinken (bijv. feitencontrole, literatuurdekking) en waar ze moeite hebben (bijv. het beoordelen van methodologische nieuwigheid en theoretische bijdragen), wat het blijvende belang van menselijke expertise onderstreept. Op basis van deze bevindingen stellen wij richtlijnen voor voor het integreren van AI in peer-review processen, waarbij we laten zien hoe AI consistentie, dekking en eerlijkheid kan verbeteren terwijl complexe evaluatieve oordelen worden overgelaten aan domeinexperts. Ons werk biedt een basis voor systematische, hybride peer-review systemen die meeschalen met de groei van wetenschappelijk publiceren.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from inconsistencies, reviewer subjectivity, and scalability challenges. We introduce ReviewerToo, a modular framework for studying and deploying AI-assisted peer review to complement human judgment with systematic and consistent assessments. ReviewerToo supports systematic experiments with specialized reviewer personas and structured evaluation criteria, and can be partially or fully integrated into real conference workflows. We validate ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR 2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy for the task of categorizing a paper as accept/reject compared to 83.9% for the average human reviewer. Additionally, ReviewerToo-generated reviews are rated as higher quality than the human average by an LLM judge, though still trailing the strongest expert contributions. Our analysis highlights domains where AI reviewers excel (e.g., fact-checking, literature coverage) and where they struggle (e.g., assessing methodological novelty and theoretical contributions), underscoring the continued need for human expertise. Based on these findings, we propose guidelines for integrating AI into peer-review pipelines, showing how AI can enhance consistency, coverage, and fairness while leaving complex evaluative judgments to domain experts. Our work provides a foundation for systematic, hybrid peer-review systems that scale with the growth of scientific publishing.
PDF42October 13, 2025