PRISM: Многомерный бенчмарк для оценки LLM-рецензентов

Аннотация

Стремительный рост числа заявок, подаваемых на конференции и в журналы по машинному обучению, создал нагрузку на систему научного рецензирования и усилил интерес к автоматизированным рецензентам на основе больших языковых моделей (LLM). Однако остаётся слабо изученным, насколько эффективны такие системы на самом деле, особенно в сравнении с рецензентами-людьми при выявлении научных пробелов. В данной работе мы представляем PRISM (Peer Review Intelligence via Structured Multi-dimensional Assessment) — платформу для бенчмаркинга, оценивающую качество рецензирования по четырём измерениям: глубина анализа, оценка новизны, выявление недостатков и приоритизация ключевых проблем, а также многомерная конструктивность. В отличие от большинства существующих оценок, основанных на поверхностных метриках, таких как ROUGE и BLEU, или неограниченном использовании LLM в качестве судьи, что смешивает беглость с формальной строгостью, PRISM опирается на анализ аргументации, дополненную извлечением верификацию и оценку на основе консенсуса. Мы применяем PRISM для сравнения пяти ведущих систем автоматического рецензирования и рецензентов-людей на стратифицированном корпусе рецензий из ICLR, ICML и NeurIPS. Результаты показывают, что LLM могут соответствовать или превосходить рецензентов-людей по отдельным измерениям: сопоставимая глубина анализа, более качественная верификация новизны и высокая точность приоритизации критических замечаний. Однако ни одна отдельная система не демонстрирует стабильно сбалансированной производительности по всем измерениям одновременно, соответствующей базовому уровню человеческого рецензирования. Каждая из них обладает характерным профилем специализации с типичными слепыми зонами — типами сбоев, которые полностью не учитываются агрегированными метриками. Отсюда следует, что рецензенты на основе LLM следует рассматривать в первую очередь как целенаправленное дополнение к человеческому рецензированию, эффективное в отдельных измерениях, но ненадёжное в качестве самостоятельной замены. Демонстрация и основные результаты доступны по ссылке https://khanhthanhdev.github.io/prism-page/.

English

The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.