PRISM : Un référentiel multidimensionnel pour l’évaluation des réviseurs pairs LLM

Résumé

La croissance rapide du nombre de soumissions dans les conférences en apprentissage automatique a mis sous tension le système d'évaluation par les pairs et intensifié l'intérêt pour les examinateurs automatiques basés sur les LLM. Cependant, la qualité réelle de ces systèmes, en particulier par rapport aux examinateurs humains pour détecter les lacunes scientifiques, reste mal comprise. Dans ce travail, nous présentons PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), un cadre de référence qui évalue la qualité des révisions selon quatre dimensions : profondeur de l'analyse, évaluation de la nouveauté, identification des défauts et priorisation des problèmes majeurs, et constructivité multidimensionnelle. Contrairement à la plupart des évaluations existantes reposant sur des métriques de surface comme ROUGE et BLEU, ou sur des incitations non contraintes de LLM en tant que juge qui confondent fluidité et rigueur, PRISM ancre chaque dimension dans l'extraction d'arguments, la vérification augmentée par recherche et la notation basée sur le consensus. Nous appliquons PRISM pour comparer cinq systèmes d'examen automatique de premier plan et des examinateurs humains sur un corpus stratifié de critiques issues d'ICLR, ICML et NeurIPS. Les résultats révèlent que les LLM peuvent égaler ou surpasser les examinateurs humains sur des dimensions individuelles : une profondeur d'analyse comparable, une vérification de la nouveauté plus robuste, et une priorisation des critiques très précise. Cependant, aucun système unique n'atteint systématiquement la performance équilibrée de la référence humaine sur l'ensemble des dimensions à la fois. Chacun présente un profil de spécialisation distinct avec des angles morts caractéristiques – des modes d'échec que les métriques agrégées ne détectent pas du tout. La conclusion est que les examinateurs LLM sont mieux compris comme des compléments ciblés à l'examen humain, efficaces dans des dimensions spécifiques, mais peu fiables en tant que remplacements autonomes. Notre démonstration et nos résultats clés sont disponibles à l'adresse https://khanhthanhdev.github.io/prism-page/.

English

The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.