PRISM: Een multidimensionale benchmark voor het evalueren van LLM-peerbeoordelaars

Samenvatting

De snelle groei van het aantal inzendingen voor machine learning-conferenties heeft het wetenschappelijke peer-review-systeem onder druk gezet en de interesse in LLM-gebaseerde geautomatiseerde peer reviewers vergroot. Hoe goed deze systemen echter daadwerkelijk zijn, vooral in vergelijking met menselijke reviewers bij het opsporen van wetenschappelijke hiaten, blijft slecht begrepen. In dit werk introduceren we PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), een benchmarkframework dat de kwaliteit van reviews evalueert over vier dimensies: Diepte van Analyse, Beoordeling van Nieuwheid, Identificatie van Gebreken & Prioritering van Belangrijke Kwesties, en Multidimensionale Constructiviteit. In tegenstelling tot de meeste bestaande evaluaties op basis van oppervlakkige metrieken zoals ROUGE en BLEU, of onbeperkte LLM-als-rechter prompting die vloeiendheid verwart met nauwkeurigheid, baseert PRISM elke dimensie op argumentmining, retrieval-versterkte verificatie en consensusgebaseerde scoring. We passen PRISM toe om vijf toonaangevende geautomatiseerde reviewersystemen en menselijke reviewers te benchmarken op een gestratificeerd corpus van reviews van ICLR, ICML en NeurIPS. De resultaten laten zien dat LLMs menselijke reviewers kunnen evenaren of overtreffen op individuele dimensies: vergelijkbare diepte van analyse, sterkere nieuwheidsverificatie en zeer nauwkeurige prioritering van kritiek. Echter, geen enkel systeem komt consistent overeen met de gebalanceerde prestaties van de menselijke basislijn over alle dimensies tegelijk. Elk vertoont een duidelijk specialisatieprofiel met karakteristieke blinde vlekken -- faalwijzen die geaggregeerde metrieken volledig missen. De implicatie is dat LLM-reviewers het best kunnen worden begrepen als gerichte aanvullingen op menselijke review, effectief binnen specifieke dimensies, maar onbetrouwbaar als zelfstandige vervangingen. Onze demo en belangrijkste resultaten zijn te vinden op https://khanhthanhdev.github.io/prism-page/.

English

The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.