RevisorDois: A IA Deveria Participar do Comitê de Programa? Uma Visão sobre o Futuro da Revisão por Pares
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
October 9, 2025
Autores: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI
Resumo
A revisão por pares é a pedra angular da publicação científica, mas sofre com
inconsistências, subjetividade dos revisores e desafios de escalabilidade.
Apresentamos o ReviewerToo, uma estrutura modular para estudar e implementar
revisão por pares assistida por IA, complementando o julgamento humano com
avaliações sistemáticas e consistentes. O ReviewerToo permite experimentos
sistemáticos com personas especializadas de revisores e critérios de avaliação
estruturados, podendo ser parcial ou totalmente integrado em fluxos de trabalho
reais de conferências. Validamos o ReviewerToo em um conjunto de dados
cuidadosamente curado de 1.963 submissões de artigos da ICLR 2025, onde nossos
experimentos com o modelo gpt-oss-120b alcançaram 81,8% de precisão na tarefa de
classificar um artigo como aceito/rejeitado, em comparação com 83,9% para o
revisor humano médio. Além disso, as revisões geradas pelo ReviewerToo foram
avaliadas como de qualidade superior à média humana por um juiz LLM, embora
ainda atrás das contribuições mais fortes de especialistas. Nossa análise
destaca domínios onde os revisores de IA se destacam (por exemplo, verificação
de fatos, cobertura da literatura) e onde eles têm dificuldades (por exemplo,
avaliar novidade metodológica e contribuições teóricas), ressaltando a
necessidade contínua de expertise humana. Com base nessas descobertas,
propomos diretrizes para integrar a IA em pipelines de revisão por pares,
mostrando como a IA pode melhorar a consistência, cobertura e justiça, enquanto
deixa julgamentos avaliativos complexos para especialistas do domínio. Nosso
trabalho fornece uma base para sistemas híbridos e sistemáticos de revisão por
pares que escalam com o crescimento da publicação científica.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from
inconsistencies, reviewer subjectivity, and scalability challenges. We
introduce ReviewerToo, a modular framework for studying and deploying
AI-assisted peer review to complement human judgment with systematic and
consistent assessments. ReviewerToo supports systematic experiments with
specialized reviewer personas and structured evaluation criteria, and can be
partially or fully integrated into real conference workflows. We validate
ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR
2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy
for the task of categorizing a paper as accept/reject compared to 83.9% for the
average human reviewer. Additionally, ReviewerToo-generated reviews are rated
as higher quality than the human average by an LLM judge, though still trailing
the strongest expert contributions. Our analysis highlights domains where AI
reviewers excel (e.g., fact-checking, literature coverage) and where they
struggle (e.g., assessing methodological novelty and theoretical
contributions), underscoring the continued need for human expertise. Based on
these findings, we propose guidelines for integrating AI into peer-review
pipelines, showing how AI can enhance consistency, coverage, and fairness while
leaving complex evaluative judgments to domain experts. Our work provides a
foundation for systematic, hybrid peer-review systems that scale with the
growth of scientific publishing.