리뷰어투: AI가 프로그램 위원회에 참여해야 할까? 피어 리뷰의 미래를 살펴보다
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
October 9, 2025
저자: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI
초록
동료 평가는 과학 출판의 초석이지만, 불일치, 평가자의 주관성, 확장성 문제로 인해 어려움을 겪고 있습니다. 우리는 ReviewerToo를 소개합니다. 이는 체계적이고 일관된 평가를 통해 인간의 판단을 보완하는 AI 지원 동료 평가를 연구하고 배포하기 위한 모듈식 프레임워크입니다. ReviewerToo는 특화된 평가자 페르소나와 구조화된 평가 기준을 사용한 체계적인 실험을 지원하며, 실제 컨퍼런스 워크플로우에 부분적 또는 완전히 통합될 수 있습니다. 우리는 ICLR 2025에서 엄선된 1,963편의 논문 제출 데이터셋을 통해 ReviewerToo를 검증했으며, gpt-oss-120b 모델을 사용한 실험에서 논문을 수락/거절로 분류하는 작업에서 81.8%의 정확도를 달성했습니다. 이는 평균 인간 평가자의 83.9%에 근접한 수치입니다. 또한, ReviewerToo가 생성한 평가는 LLM 판단자에 의해 인간 평균보다 더 높은 품질로 평가되었지만, 여전히 최고의 전문가 기여에는 미치지 못했습니다. 우리의 분석은 AI 평가자가 우수한 영역(예: 사실 확인, 문헌 커버리지)과 어려움을 겪는 영역(예: 방법론적 참신성 및 이론적 기여 평가)을 강조하며, 여전히 인간 전문 지식이 필요함을 보여줍니다. 이러한 결과를 바탕으로, 우리는 AI를 동료 평가 프로세스에 통합하기 위한 가이드라인을 제안하며, AI가 일관성, 커버리지, 공정성을 향상시키는 동시에 복잡한 평가적 판단은 도메인 전문가에게 맡기는 방법을 보여줍니다. 우리의 작업은 과학 출판의 성장에 맞춰 확장 가능한 체계적 하이브리드 동료 평가 시스템의 기반을 제공합니다.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from
inconsistencies, reviewer subjectivity, and scalability challenges. We
introduce ReviewerToo, a modular framework for studying and deploying
AI-assisted peer review to complement human judgment with systematic and
consistent assessments. ReviewerToo supports systematic experiments with
specialized reviewer personas and structured evaluation criteria, and can be
partially or fully integrated into real conference workflows. We validate
ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR
2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy
for the task of categorizing a paper as accept/reject compared to 83.9% for the
average human reviewer. Additionally, ReviewerToo-generated reviews are rated
as higher quality than the human average by an LLM judge, though still trailing
the strongest expert contributions. Our analysis highlights domains where AI
reviewers excel (e.g., fact-checking, literature coverage) and where they
struggle (e.g., assessing methodological novelty and theoretical
contributions), underscoring the continued need for human expertise. Based on
these findings, we propose guidelines for integrating AI into peer-review
pipelines, showing how AI can enhance consistency, coverage, and fairness while
leaving complex evaluative judgments to domain experts. Our work provides a
foundation for systematic, hybrid peer-review systems that scale with the
growth of scientific publishing.