RecensoreDue: L'IA dovrebbe far parte del comitato di programma? Uno sguardo al futuro della revisione tra pari
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
October 9, 2025
Autori: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI
Abstract
La revisione tra pari è il pilastro della pubblicazione scientifica, ma soffre di
inconsistenze, soggettività dei revisori e sfide di scalabilità. Presentiamo
ReviewerToo, un framework modulare per studiare e implementare la revisione tra
pari assistita dall'IA, al fine di integrare il giudizio umano con valutazioni
sistematiche e coerenti. ReviewerToo supporta esperimenti sistematici con
personaggi specializzati di revisori e criteri di valutazione strutturati, e può
essere parzialmente o completamente integrato nei flussi di lavoro reali delle
conferenze. Validiamo ReviewerToo su un dataset accuratamente curato di 1.963
sottomissioni di articoli provenienti da ICLR 2025, dove i nostri esperimenti con
il modello gpt-oss-120b raggiungono un'accuratezza dell'81,8% nel compito di
classificare un articolo come accettato/rifiutato, rispetto all'83,9% della media
dei revisori umani. Inoltre, le recensioni generate da ReviewerToo sono valutate
come di qualità superiore alla media umana da un giudice LLM, sebbene rimangano
indietro rispetto ai contributi più forti degli esperti. La nostra analisi
evidenzia i domini in cui i revisori IA eccellono (ad esempio, verifica dei
fatti, copertura della letteratura) e quelli in cui faticano (ad esempio,
valutazione della novità metodologica e dei contributi teorici), sottolineando
la continua necessità dell'esperienza umana. Sulla base di questi risultati,
proponiamo linee guida per integrare l'IA nei processi di revisione tra pari,
mostrando come l'IA possa migliorare la coerenza, la copertura e l'equità,
lasciando i giudizi valutativi complessi agli esperti del settore. Il nostro
lavoro fornisce una base per sistemi di revisione tra pari ibridi e sistematici
che scalano con la crescita della pubblicazione scientifica.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from
inconsistencies, reviewer subjectivity, and scalability challenges. We
introduce ReviewerToo, a modular framework for studying and deploying
AI-assisted peer review to complement human judgment with systematic and
consistent assessments. ReviewerToo supports systematic experiments with
specialized reviewer personas and structured evaluation criteria, and can be
partially or fully integrated into real conference workflows. We validate
ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR
2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy
for the task of categorizing a paper as accept/reject compared to 83.9% for the
average human reviewer. Additionally, ReviewerToo-generated reviews are rated
as higher quality than the human average by an LLM judge, though still trailing
the strongest expert contributions. Our analysis highlights domains where AI
reviewers excel (e.g., fact-checking, literature coverage) and where they
struggle (e.g., assessing methodological novelty and theoretical
contributions), underscoring the continued need for human expertise. Based on
these findings, we propose guidelines for integrating AI into peer-review
pipelines, showing how AI can enhance consistency, coverage, and fairness while
leaving complex evaluative judgments to domain experts. Our work provides a
foundation for systematic, hybrid peer-review systems that scale with the
growth of scientific publishing.