PRISM: Un punto de referencia multidimensional para evaluar revisores por pares de LLM

Resumen

El rápido crecimiento de los envíos a revistas de aprendizaje automático ha sobrecargado el sistema científico de revisión por pares e intensificado el interés en revisores automáticos basados en LLM. Sin embargo, aún se comprende poco cuán buenos son realmente estos sistemas, especialmente en comparación con los revisores humanos para detectar vacíos científicos. En este trabajo presentamos PRISM (Evaluación Inteligente de Revisión por Pares mediante Valoración Multidimensional Estructurada), un marco de evaluación comparativa que mide la calidad de la revisión en cuatro dimensiones: Profundidad del Análisis, Evaluación de la Novedad, Identificación de Fallos y Priorización de Problemas Principales, y Constructividad Multidimensional. A diferencia de la mayoría de las evaluaciones existentes basadas en métricas superficiales como ROUGE y BLEU, o en la inducción sin restricciones de LLM como juez que confunde fluidez con rigor, PRISM fundamenta cada dimensión en minería de argumentos, verificación aumentada por recuperación y puntuación basada en consenso. Aplicamos PRISM para evaluar cinco sistemas líderes de revisión automática y revisores humanos sobre un corpus estratificado de revisiones de ICLR, ICML y NeurIPS. Los resultados revelan que los LLM pueden igualar o superar a los revisores humanos en dimensiones individuales: profundidad de análisis comparable, verificación de novedad más sólida y priorización de críticas altamente precisa. Sin embargo, ningún sistema individual iguala consistentemente el rendimiento equilibrado de la referencia humana en todas las dimensiones a la vez. Cada uno exhibe un perfil de especialización distintivo con puntos ciegos característicos—modos de fallo que las métricas agregadas pasan por alto por completo. La implicación es que los revisores LLM se entienden mejor como complementos dirigidos a la revisión humana, efectivos dentro de dimensiones específicas, pero poco fiables como reemplazos independientes. Nuestra demostración y resultados clave pueden encontrarse en https://khanhthanhdev.github.io/prism-page/.

English

The rapid growth in submissions to machine learning venues has strained the scientific peer-review system and intensified interest in LLM-based automated peer reviewers. However, how good these systems are actually, especially compared to human reviewers at catching scientific gaps, remains poorly understood. In this work, we introduce PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), a benchmarking framework that evaluates review quality across four dimensions: Depth of Analysis, Novelty Assessment,Flaw Identification & Major Issues Prioritization, and Multi-dimensional Constructiveness. Unlike most existing evaluations based on surface-level metrics like ROUGE and BLEU, or unconstrained LLM-as-a-judge prompting that conflates fluency with rigor, PRISM grounds each dimension in argument mining, retrieval-augmented verification, and consensus-based scoring. We apply PRISM to benchmark five leading automated reviewer systems and human reviewers on a stratified corpus of reviews from ICLR, ICML, and NeurIPS. The results reveal that LLMs can match or beat human reviewers on individual dimensions: comparable depth of analysis, stronger novelty verification, and highly accurate critique prioritization. However, no single system consistently matches the balanced performance of the human baseline across all dimensions at once. Each exhibits a distinct specialization profile with characteristic blind spots -- failure modes that aggregate metrics miss entirely. The implication is that LLM reviewers are best understood as targeted supplements to human review, effective within specific dimensions, but unreliable as standalone replacements. Our demo and key results can be found at https://khanhthanhdev.github.io/prism-page/.