ReviewScore: Detecção de Revisão por Pares Mal Informada com Modelos de Linguagem de Grande Escala
ReviewScore: Misinformed Peer Review Detection with Large Language Models
September 25, 2025
Autores: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI
Resumo
A revisão por pares serve como pilar da pesquisa acadêmica, mas na maioria das conferências de IA, a qualidade das revisões está se deteriorando à medida que o número de submissões explode. Para detectar de forma confiável revisões de baixa qualidade, definimos pontos de revisão mal informados como "fraquezas" em uma revisão que contêm premissas incorretas ou "perguntas" que já podem ser respondidas pelo artigo. Verificamos que 15,2% das fraquezas e 26,4% das perguntas são mal informadas e introduzimos o ReviewScore, que indica se um ponto de revisão é mal informado. Para avaliar a factualidade de cada premissa das fraquezas, propomos um mecanismo automatizado que reconstrói todas as premissas explícitas e implícitas de uma fraqueza. Construímos um conjunto de dados ReviewScore anotado por especialistas humanos para verificar a capacidade dos LLMs de automatizar a avaliação do ReviewScore. Em seguida, medimos a concordância entre humanos e modelos no ReviewScore usando oito LLMs atuais de última geração e verificamos concordâncias moderadas. Também comprovamos que avaliar a factualidade no nível da premissa apresenta concordâncias significativamente maiores do que avaliar a factualidade no nível da fraqueza. Uma análise detalhada das discordâncias apoia ainda mais o potencial de uma avaliação totalmente automatizada do ReviewScore.
English
Peer review serves as a backbone of academic research, but in most AI
conferences, the review quality is degrading as the number of submissions
explodes. To reliably detect low-quality reviews, we define misinformed review
points as either "weaknesses" in a review that contain incorrect premises, or
"questions" in a review that can be already answered by the paper. We verify
that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce
ReviewScore indicating if a review point is misinformed. To evaluate the
factuality of each premise of weaknesses, we propose an automated engine that
reconstructs every explicit and implicit premise from a weakness. We build a
human expert-annotated ReviewScore dataset to check the ability of LLMs to
automate ReviewScore evaluation. Then, we measure human-model agreements on
ReviewScore using eight current state-of-the-art LLMs and verify moderate
agreements. We also prove that evaluating premise-level factuality shows
significantly higher agreements than evaluating weakness-level factuality. A
thorough disagreement analysis further supports a potential of fully automated
ReviewScore evaluation.