ReviewScore: Detección de Revisión por Pares Mal Informada con Modelos de Lenguaje a Gran Escala
ReviewScore: Misinformed Peer Review Detection with Large Language Models
September 25, 2025
Autores: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI
Resumen
La revisión por pares sirve como columna vertebral de la investigación académica, pero en la mayoría de las conferencias de IA, la calidad de las revisiones se está degradando a medida que el número de envíos se dispara. Para detectar de manera confiable revisiones de baja calidad, definimos los puntos de revisión mal informados como "debilidades" en una revisión que contienen premisas incorrectas o "preguntas" en una revisión que ya pueden ser respondidas por el artículo. Verificamos que el 15,2 % de las debilidades y el 26,4 % de las preguntas están mal informadas e introducimos ReviewScore, que indica si un punto de revisión está mal informado. Para evaluar la factualidad de cada premisa de las debilidades, proponemos un motor automatizado que reconstruye cada premisa explícita e implícita de una debilidad. Construimos un conjunto de datos de ReviewScore anotado por expertos humanos para verificar la capacidad de los LLM (modelos de lenguaje grandes) para automatizar la evaluación de ReviewScore. Luego, medimos los acuerdos entre humanos y modelos en ReviewScore utilizando ocho LLM actuales de última generación y verificamos acuerdos moderados. También demostramos que evaluar la factualidad a nivel de premisa muestra acuerdos significativamente más altos que evaluar la factualidad a nivel de debilidad. Un análisis exhaustivo de los desacuerdos respalda aún más el potencial de una evaluación completamente automatizada de ReviewScore.
English
Peer review serves as a backbone of academic research, but in most AI
conferences, the review quality is degrading as the number of submissions
explodes. To reliably detect low-quality reviews, we define misinformed review
points as either "weaknesses" in a review that contain incorrect premises, or
"questions" in a review that can be already answered by the paper. We verify
that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce
ReviewScore indicating if a review point is misinformed. To evaluate the
factuality of each premise of weaknesses, we propose an automated engine that
reconstructs every explicit and implicit premise from a weakness. We build a
human expert-annotated ReviewScore dataset to check the ability of LLMs to
automate ReviewScore evaluation. Then, we measure human-model agreements on
ReviewScore using eight current state-of-the-art LLMs and verify moderate
agreements. We also prove that evaluating premise-level factuality shows
significantly higher agreements than evaluating weakness-level factuality. A
thorough disagreement analysis further supports a potential of fully automated
ReviewScore evaluation.