ChatPaper.aiChatPaper

Examinateur 2 : L'IA devrait-elle intégrer le comité de programme ? Un regard sur l'avenir de l'évaluation par les pairs

ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

October 9, 2025
papers.authors: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI

papers.abstract

L'évaluation par les pairs est la pierre angulaire de la publication scientifique, mais elle souffre d'incohérences, de subjectivité des évaluateurs et de défis liés à l'évolutivité. Nous présentons ReviewerToo, un cadre modulaire pour étudier et déployer l'évaluation par les pairs assistée par l'intelligence artificielle (IA) afin de compléter le jugement humain par des évaluations systématiques et cohérentes. ReviewerToo permet de mener des expériences systématiques avec des profils d'évaluateurs spécialisés et des critères d'évaluation structurés, et peut être partiellement ou entièrement intégré dans les flux de travail réels des conférences. Nous validons ReviewerToo sur un ensemble de données soigneusement sélectionné de 1 963 soumissions de papiers provenant de l'ICLR 2025, où nos expériences avec le modèle gpt-oss-120b atteignent une précision de 81,8 % pour la tâche de catégorisation d'un article en accepté/rejeté, contre 83,9 % pour l'évaluateur humain moyen. De plus, les évaluations générées par ReviewerToo sont jugées de qualité supérieure à la moyenne humaine par un juge LLM, bien qu'elles restent en deçà des contributions des experts les plus performants. Notre analyse met en lumière les domaines où les évaluateurs IA excellent (par exemple, la vérification des faits, la couverture de la littérature) et ceux où ils rencontrent des difficultés (par exemple, l'évaluation de la nouveauté méthodologique et des contributions théoriques), soulignant le besoin persistant d'expertise humaine. Sur la base de ces résultats, nous proposons des lignes directrices pour intégrer l'IA dans les processus d'évaluation par les pairs, montrant comment l'IA peut améliorer la cohérence, la couverture et l'équité tout en laissant les jugements évaluatifs complexes aux experts du domaine. Notre travail jette les bases de systèmes hybrides d'évaluation par les pairs systématiques, capables de s'adapter à la croissance de la publication scientifique.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from inconsistencies, reviewer subjectivity, and scalability challenges. We introduce ReviewerToo, a modular framework for studying and deploying AI-assisted peer review to complement human judgment with systematic and consistent assessments. ReviewerToo supports systematic experiments with specialized reviewer personas and structured evaluation criteria, and can be partially or fully integrated into real conference workflows. We validate ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR 2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy for the task of categorizing a paper as accept/reject compared to 83.9% for the average human reviewer. Additionally, ReviewerToo-generated reviews are rated as higher quality than the human average by an LLM judge, though still trailing the strongest expert contributions. Our analysis highlights domains where AI reviewers excel (e.g., fact-checking, literature coverage) and where they struggle (e.g., assessing methodological novelty and theoretical contributions), underscoring the continued need for human expertise. Based on these findings, we propose guidelines for integrating AI into peer-review pipelines, showing how AI can enhance consistency, coverage, and fairness while leaving complex evaluative judgments to domain experts. Our work provides a foundation for systematic, hybrid peer-review systems that scale with the growth of scientific publishing.
PDF42October 13, 2025