RevisorDos: ¿Debería la IA unirse al comité del programa? Una mirada al futuro de la revisión por pares
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
October 9, 2025
Autores: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI
Resumen
La revisión por pares es la piedra angular de la publicación científica, aunque adolece de inconsistencias, subjetividad de los revisores y desafíos de escalabilidad. Presentamos ReviewerToo, un marco modular para estudiar e implementar la revisión por pares asistida por inteligencia artificial, con el fin de complementar el juicio humano con evaluaciones sistemáticas y consistentes. ReviewerToo permite experimentos sistemáticos con perfiles especializados de revisores y criterios de evaluación estructurados, y puede integrarse parcial o totalmente en los flujos de trabajo de conferencias reales. Validamos ReviewerToo en un conjunto de datos cuidadosamente seleccionado de 1,963 envíos de artículos de ICLR 2025, donde nuestros experimentos con el modelo gpt-oss-120b alcanzan un 81.8% de precisión en la tarea de clasificar un artículo como aceptado/rechazado, en comparación con el 83.9% del revisor humano promedio. Además, las revisiones generadas por ReviewerToo son calificadas como de mayor calidad que el promedio humano por un juez basado en un modelo de lenguaje grande (LLM), aunque aún quedan por detrás de las contribuciones más sólidas de los expertos. Nuestro análisis destaca los dominios en los que los revisores de IA sobresalen (por ejemplo, verificación de hechos, cobertura de literatura) y aquellos en los que tienen dificultades (por ejemplo, evaluación de la novedad metodológica y contribuciones teóricas), subrayando la necesidad continua de la experiencia humana. Con base en estos hallazgos, proponemos pautas para integrar la IA en los procesos de revisión por pares, mostrando cómo la IA puede mejorar la consistencia, cobertura y equidad, mientras deja los juicios evaluativos complejos en manos de expertos en el dominio. Nuestro trabajo sienta las bases para sistemas híbridos y sistemáticos de revisión por pares que escalen con el crecimiento de la publicación científica.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from
inconsistencies, reviewer subjectivity, and scalability challenges. We
introduce ReviewerToo, a modular framework for studying and deploying
AI-assisted peer review to complement human judgment with systematic and
consistent assessments. ReviewerToo supports systematic experiments with
specialized reviewer personas and structured evaluation criteria, and can be
partially or fully integrated into real conference workflows. We validate
ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR
2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy
for the task of categorizing a paper as accept/reject compared to 83.9% for the
average human reviewer. Additionally, ReviewerToo-generated reviews are rated
as higher quality than the human average by an LLM judge, though still trailing
the strongest expert contributions. Our analysis highlights domains where AI
reviewers excel (e.g., fact-checking, literature coverage) and where they
struggle (e.g., assessing methodological novelty and theoretical
contributions), underscoring the continued need for human expertise. Based on
these findings, we propose guidelines for integrating AI into peer-review
pipelines, showing how AI can enhance consistency, coverage, and fairness while
leaving complex evaluative judgments to domain experts. Our work provides a
foundation for systematic, hybrid peer-review systems that scale with the
growth of scientific publishing.