ChatPaper.aiChatPaper

ReviewScore: Misleidende Peer Review Detectie met Grote Taalmodellen

ReviewScore: Misinformed Peer Review Detection with Large Language Models

September 25, 2025
Auteurs: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI

Samenvatting

Peer review vormt de ruggengraat van academisch onderzoek, maar bij de meeste AI-conferenties neemt de kwaliteit van de reviews af naarmate het aantal inzendingen explodeert. Om onbetrouwbare reviews betrouwbaar te detecteren, definiëren we misleidende reviewpunten als "zwakke punten" in een review die onjuiste uitgangspunten bevatten, of "vragen" in een review die al door het artikel beantwoord kunnen worden. We constateren dat 15,2% van de zwakke punten en 26,4% van de vragen misleidend zijn en introduceren ReviewScore om aan te geven of een reviewpunt misleidend is. Om de feitelijkheid van elk uitgangspunt van zwakke punten te evalueren, stellen we een geautomatiseerde engine voor die elk expliciet en impliciet uitgangspunt uit een zwak punt reconstrueert. We bouwen een door menselijke experts geannoteerde ReviewScore-dataset om het vermogen van LLM's te testen om de evaluatie van ReviewScore te automatiseren. Vervolgens meten we de overeenstemming tussen mens en model over ReviewScore met behulp van acht huidige state-of-the-art LLM's en constateren we een matige overeenstemming. We tonen ook aan dat het evalueren van feitelijkheid op uitgangspuntniveau significant hogere overeenstemming laat zien dan het evalueren van feitelijkheid op zwakpuntniveau. Een grondige analyse van de meningsverschillen ondersteunt verder het potentieel van een volledig geautomatiseerde ReviewScore-evaluatie.
English
Peer review serves as a backbone of academic research, but in most AI conferences, the review quality is degrading as the number of submissions explodes. To reliably detect low-quality reviews, we define misinformed review points as either "weaknesses" in a review that contain incorrect premises, or "questions" in a review that can be already answered by the paper. We verify that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce ReviewScore indicating if a review point is misinformed. To evaluate the factuality of each premise of weaknesses, we propose an automated engine that reconstructs every explicit and implicit premise from a weakness. We build a human expert-annotated ReviewScore dataset to check the ability of LLMs to automate ReviewScore evaluation. Then, we measure human-model agreements on ReviewScore using eight current state-of-the-art LLMs and verify moderate agreements. We also prove that evaluating premise-level factuality shows significantly higher agreements than evaluating weakness-level factuality. A thorough disagreement analysis further supports a potential of fully automated ReviewScore evaluation.
PDF632September 29, 2025