PRISM: Um Benchmark Multidimensional para Avaliar Revisores Pares de LLM

Resumo

O rápido crescimento no número de submissões em conferências de aprendizado de máquina sobrecarregou o sistema de revisão por pares e intensificou o interesse em revisores automatizados baseados em LLM. No entanto, ainda se sabe pouco sobre o quão bons esses sistemas realmente são, especialmente em comparação com revisores humanos para identificar lacunas científicas. Neste trabalho, apresentamos o PRISM (Peer Review Intelligence via Structured Multi-dimensional Assessment), uma estrutura de benchmarking que avalia a qualidade da revisão em quatro dimensões: Profundidade da Análise, Avaliação de Novidade, Identificação de Falhas e Priorização de Questões Principais, e Construtividade Multidimensional. Diferentemente da maioria das avaliações existentes, baseadas em métricas superficiais como ROUGE e BLEU, ou no prompting irrestrito de LLM como juiz, que confunde fluência com rigor, o PRISM fundamenta cada dimensão em mineração de argumentos, verificação aumentada por recuperação e pontuação baseada em consenso. Aplicamos o PRISM para avaliar cinco sistemas líderes de revisão automatizada e revisores humanos em um corpus estratificado de revisões do ICLR, ICML e NeurIPS. Os resultados revelam que LLMs podem igualar ou superar revisores humanos em dimensões individuais: profundidade de análise comparável, verificação de novidade mais forte e priorização de críticas altamente precisa. No entanto, nenhum sistema único consegue consistentemente igualar o desempenho equilibrado da linha de base humana em todas as dimensões simultaneamente. Cada um exibe um perfil de especialização distinto, com pontos cegos característicos — modos de falha que as métricas agregadas ignoram completamente. A implicação é que os revisores LLM são mais bem compreendidos como suplementos direcionados à revisão humana, eficazes dentro de dimensões específicas, mas não confiáveis como substitutos autônomos. Nossa demonstração e principais resultados podem ser encontrados em https://khanhthanhdev.github.io/prism-page/.

English

The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.