ChatPaper.aiChatPaper

ReviewScore: Fehlerhafte Peer-Review-Erkennung mit großen Sprachmodellen

ReviewScore: Misinformed Peer Review Detection with Large Language Models

September 25, 2025
papers.authors: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI

papers.abstract

Peer Review bildet das Rückgrat der akademischen Forschung, doch bei den meisten KI-Konferenzen verschlechtert sich die Qualität der Gutachten, während die Anzahl der Einreichungen explodiert. Um qualitativ minderwertige Gutachten zuverlässig zu identifizieren, definieren wir fehlinformierte Gutachtenpunkte entweder als „Schwächen“ in einem Gutachten, die auf falschen Prämissen beruhen, oder als „Fragen“ in einem Gutachten, die bereits durch den Beitrag beantwortet werden können. Wir bestätigen, dass 15,2 % der Schwächen und 26,4 % der Fragen fehlinformiert sind, und führen den ReviewScore ein, der anzeigt, ob ein Gutachtenpunkt fehlinformiert ist. Um die Faktizität jeder Prämisse von Schwächen zu bewerten, schlagen wir eine automatisierte Engine vor, die jede explizite und implizite Prämisse aus einer Schwäche rekonstruiert. Wir erstellen einen von menschlichen Experten annotierten ReviewScore-Datensatz, um die Fähigkeit von LLMs (Large Language Models) zur Automatisierung der ReviewScore-Bewertung zu überprüfen. Anschließend messen wir die Übereinstimmung zwischen Mensch und Modell beim ReviewScore unter Verwendung von acht aktuellen state-of-the-art LLMs und bestätigen moderate Übereinstimmungen. Wir zeigen außerdem, dass die Bewertung der Faktizität auf Prämissenebene signifikant höhere Übereinstimmungen aufweist als die Bewertung der Faktizität auf Schwächenebene. Eine umfassende Analyse von Unstimmigkeiten unterstützt weiterhin das Potenzial einer vollständig automatisierten ReviewScore-Bewertung.
English
Peer review serves as a backbone of academic research, but in most AI conferences, the review quality is degrading as the number of submissions explodes. To reliably detect low-quality reviews, we define misinformed review points as either "weaknesses" in a review that contain incorrect premises, or "questions" in a review that can be already answered by the paper. We verify that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce ReviewScore indicating if a review point is misinformed. To evaluate the factuality of each premise of weaknesses, we propose an automated engine that reconstructs every explicit and implicit premise from a weakness. We build a human expert-annotated ReviewScore dataset to check the ability of LLMs to automate ReviewScore evaluation. Then, we measure human-model agreements on ReviewScore using eight current state-of-the-art LLMs and verify moderate agreements. We also prove that evaluating premise-level factuality shows significantly higher agreements than evaluating weakness-level factuality. A thorough disagreement analysis further supports a potential of fully automated ReviewScore evaluation.
PDF582September 29, 2025