РецензентToo: Должен ли ИИ войти в программный комитет? Взгляд на будущее рецензирования
ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review
October 9, 2025
Авторы: Gaurav Sahu, Hugo Larochelle, Laurent Charlin, Christopher Pal
cs.AI
Аннотация
Рецензирование является краеугольным камнем научной публикации, однако оно страдает от неоднородности, субъективности рецензентов и проблем с масштабируемостью. Мы представляем ReviewerToo — модульную платформу для изучения и внедрения ИИ-ассистированного рецензирования, дополняющего человеческое суждение систематическими и последовательными оценками. ReviewerToo поддерживает систематические эксперименты с использованием специализированных персонажей рецензентов и структурированных критериев оценки, а также может быть частично или полностью интегрирован в реальные процессы конференций. Мы проверяем ReviewerToo на тщательно отобранном наборе данных из 1963 статей, представленных на ICLR 2025, где наши эксперименты с моделью gpt-oss-120b демонстрируют точность 81,8% в задаче классификации статей как "принять/отклонить" по сравнению с 83,9% у среднего человеческого рецензента. Кроме того, рецензии, сгенерированные ReviewerToo, оцениваются как более качественные, чем средние человеческие, по мнению судьи на основе языковой модели, хотя они всё ещё уступают лучшим экспертам. Наш анализ выделяет области, в которых ИИ-рецензенты преуспевают (например, проверка фактов, охват литературы), и те, где они испытывают трудности (например, оценка методологической новизны и теоретического вклада), подчеркивая необходимость сохранения человеческой экспертизы. На основе этих результатов мы предлагаем рекомендации по интеграции ИИ в процессы рецензирования, показывая, как ИИ может повысить последовательность, охват и справедливость, оставляя сложные оценочные суждения экспертам в предметной области. Наша работа закладывает основу для систематических гибридных систем рецензирования, способных масштабироваться вместе с ростом научной публикации.
English
Peer review is the cornerstone of scientific publishing, yet it suffers from
inconsistencies, reviewer subjectivity, and scalability challenges. We
introduce ReviewerToo, a modular framework for studying and deploying
AI-assisted peer review to complement human judgment with systematic and
consistent assessments. ReviewerToo supports systematic experiments with
specialized reviewer personas and structured evaluation criteria, and can be
partially or fully integrated into real conference workflows. We validate
ReviewerToo on a carefully curated dataset of 1,963 paper submissions from ICLR
2025, where our experiments with the gpt-oss-120b model achieves 81.8% accuracy
for the task of categorizing a paper as accept/reject compared to 83.9% for the
average human reviewer. Additionally, ReviewerToo-generated reviews are rated
as higher quality than the human average by an LLM judge, though still trailing
the strongest expert contributions. Our analysis highlights domains where AI
reviewers excel (e.g., fact-checking, literature coverage) and where they
struggle (e.g., assessing methodological novelty and theoretical
contributions), underscoring the continued need for human expertise. Based on
these findings, we propose guidelines for integrating AI into peer-review
pipelines, showing how AI can enhance consistency, coverage, and fairness while
leaving complex evaluative judgments to domain experts. Our work provides a
foundation for systematic, hybrid peer-review systems that scale with the
growth of scientific publishing.