ChatPaper.aiChatPaper

レビュアーToo: AIはプログラム委員会に参加すべきか?ピアレビューの未来を考察する

ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

October 9, 2025
著者: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI

要旨

査読は科学出版の基盤であるが、一貫性の欠如、査読者の主観性、スケーラビリティの課題に悩まされている。本論文では、人間の判断を体系的かつ一貫した評価で補完するためのAI支援査読を研究・展開するモジュール型フレームワーク「ReviewerToo」を紹介する。ReviewerTooは、専門的な査読者ペルソナと構造化された評価基準を用いた体系的な実験をサポートし、実際の学会ワークフローに部分的または完全に統合することが可能である。我々は、ICLR 2025から慎重に選ばれた1,963件の論文投稿データセットを用いてReviewerTooを検証し、gpt-oss-120bモデルによる論文の採択/拒否分類タスクにおいて81.8%の精度を達成した。これは、平均的な人間の査読者の83.9%に匹敵する結果である。さらに、ReviewerTooが生成した査読は、LLM判定者によって人間の平均よりも高品質と評価されたが、最も優れた専門家の貢献には及ばなかった。分析の結果、AI査読者が優れている領域(例:事実確認、文献カバレッジ)と苦手とする領域(例:方法論的新規性や理論的貢献の評価)が明らかになり、人間の専門知識の継続的な必要性が強調された。これらの知見に基づき、AIを査読プロセスに統合するためのガイドラインを提案し、AIが一貫性、カバレッジ、公平性を向上させつつ、複雑な評価判断を分野の専門家に委ねる方法を示す。本研究は、科学出版の成長に伴ってスケールする体系的でハイブリッドな査読システムの基盤を提供する。
English
Peer review is the cornerstone of scientific publishing, yet it suffers from inconsistencies, reviewer subjectivity, and scalability challenges. We introduce ReviewerToo, a modular framework for studying and deploying AI-assisted peer review to complement human judgment with systematic and consistent assessments. ReviewerToo supports systematic experiments with specialized reviewer personas and structured evaluation criteria, and can be partially or fully integrated into real conference workflows. We validate ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR 2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy for the task of categorizing a paper as accept/reject compared to 83.9% for the average human reviewer. Additionally, ReviewerToo-generated reviews are rated as higher quality than the human average by an LLM judge, though still trailing the strongest expert contributions. Our analysis highlights domains where AI reviewers excel (e.g., fact-checking, literature coverage) and where they struggle (e.g., assessing methodological novelty and theoretical contributions), underscoring the continued need for human expertise. Based on these findings, we propose guidelines for integrating AI into peer-review pipelines, showing how AI can enhance consistency, coverage, and fairness while leaving complex evaluative judgments to domain experts. Our work provides a foundation for systematic, hybrid peer-review systems that scale with the growth of scientific publishing.
PDF42October 13, 2025