PRISM: Ein mehrdimensionaler Benchmark zur Evaluierung von LLM-Peer-Reviewern

Zusammenfassung

Der rasche Anstieg der Einreichungen bei Machine-Learning-Tagungen hat das wissenschaftliche Peer-Review-System belastet und das Interesse an LLM-basierten automatischen Gutachtern verstärkt. Allerdings ist weiterhin unzureichend verstanden, wie gut diese Systeme tatsächlich sind – insbesondere im Vergleich zu menschlichen Gutachtern beim Erkennen wissenschaftlicher Lücken. In dieser Arbeit stellen wir PRISM (Peer Review Intelligence via Structured Multi-dimensional Assessment) vor, ein Benchmarking-Framework, das die Begutachtungsqualität in vier Dimensionen bewertet: Analysetiefe, Neuheitsbewertung, Fehleridentifikation & Priorisierung von Hauptproblemen sowie mehrdimensionale Konstruktivität. Im Gegensatz zu den meisten bestehenden Evaluationen, die auf oberflächlichen Metriken wie ROUGE und BLEU basieren oder auf unkontrolliertem LLM-als-Richter-Prompting beruhen, das fließende Sprachbeherrschung mit Genauigkeit vermischt, verankert PRISM jede Dimension in Argumentationsanalyse, retrievalgestützter Verifizierung und konsensbasierter Bewertung. Wir wenden PRISM an, um fünf führende automatische Gutachtersysteme sowie menschliche Gutachter anhand eines stratifizierten Korpus aus Begutachtungen von ICLR, ICML und NeurIPS zu bewerten. Die Ergebnisse zeigen, dass LLMs menschliche Gutachter in einzelnen Dimensionen erreichen oder übertreffen können: vergleichbare Analysetiefe, stärkere Neuheitsverifizierung und hochpräzise Kritikpriorisierung. Allerdings erreicht kein einziges System durchgängig die ausgewogene Leistung der menschlichen Basislinie über alle Dimensionen hinweg. Jedes weist ein eigenes Spezialisierungsprofil mit charakteristischen blinden Flecken auf – Fehlermodi, die aggregierte Metriken vollständig übersehen. Die Implikation ist, dass LLM-Gutachter am besten als gezielte Ergänzungen zur menschlichen Begutachtung zu verstehen sind, die in bestimmten Dimensionen wirksam, als eigenständiger Ersatz jedoch unzuverlässig sind. Unsere Demo und zentrale Ergebnisse finden Sie unter https://khanhthanhdev.github.io/prism-page/.

English

The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.