ReviewScore : Détection des évaluations par les pairs erronées à l'aide des modèles de langage de grande envergure
ReviewScore: Misinformed Peer Review Detection with Large Language Models
September 25, 2025
papers.authors: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI
papers.abstract
L’évaluation par les pairs constitue l’épine dorsale de la recherche académique, mais dans la plupart des conférences sur l’IA, la qualité des évaluations se dégrade à mesure que le nombre de soumissions explose. Pour détecter de manière fiable les évaluations de faible qualité, nous définissons les points d’évaluation mal informés comme étant soit des « faiblesses » dans une évaluation contenant des prémisses incorrectes, soit des « questions » dans une évaluation auxquelles le papier répond déjà. Nous vérifions que 15,2 % des faiblesses et 26,4 % des questions sont mal informées et introduisons le ReviewScore pour indiquer si un point d’évaluation est mal informé. Pour évaluer la factualité de chaque prémisse des faiblesses, nous proposons un moteur automatisé qui reconstruit chaque prémisse explicite et implicite à partir d’une faiblesse. Nous construisons un ensemble de données ReviewScore annoté par des experts humains pour vérifier la capacité des LLM à automatiser l’évaluation du ReviewScore. Ensuite, nous mesurons les accords entre humains et modèles sur le ReviewScore en utilisant huit LLM actuels de pointe et constatons des accords modérés. Nous démontrons également que l’évaluation de la factualité au niveau des prémisses présente des accords significativement plus élevés que l’évaluation de la factualité au niveau des faiblesses. Une analyse approfondie des désaccords soutient en outre le potentiel d’une évaluation entièrement automatisée du ReviewScore.
English
Peer review serves as a backbone of academic research, but in most AI
conferences, the review quality is degrading as the number of submissions
explodes. To reliably detect low-quality reviews, we define misinformed review
points as either "weaknesses" in a review that contain incorrect premises, or
"questions" in a review that can be already answered by the paper. We verify
that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce
ReviewScore indicating if a review point is misinformed. To evaluate the
factuality of each premise of weaknesses, we propose an automated engine that
reconstructs every explicit and implicit premise from a weakness. We build a
human expert-annotated ReviewScore dataset to check the ability of LLMs to
automate ReviewScore evaluation. Then, we measure human-model agreements on
ReviewScore using eight current state-of-the-art LLMs and verify moderate
agreements. We also prove that evaluating premise-level factuality shows
significantly higher agreements than evaluating weakness-level factuality. A
thorough disagreement analysis further supports a potential of fully automated
ReviewScore evaluation.