ChatPaper.aiChatPaper

ReviewScore: Обнаружение ошибочных рецензий с использованием крупных языковых моделей

ReviewScore: Misinformed Peer Review Detection with Large Language Models

September 25, 2025
Авторы: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI

Аннотация

Рецензирование служит основой академических исследований, однако на большинстве конференций по искусственному интеллекту качество рецензий ухудшается по мере роста числа подаваемых работ. Для надежного выявления низкокачественных рецензий мы определяем ошибочные пункты рецензий как либо "слабые стороны", содержащие неверные предпосылки, либо "вопросы", на которые уже даны ответы в статье. Мы подтверждаем, что 15,2% слабых сторон и 26,4% вопросов являются ошибочными, и вводим показатель ReviewScore, указывающий на ошибочность пункта рецензии. Для оценки фактической достоверности каждой предпосылки в слабых сторонах мы предлагаем автоматизированный механизм, который восстанавливает все явные и неявные предпосылки из слабой стороны. Мы создаем набор данных ReviewScore, аннотированный экспертами, чтобы проверить способность крупных языковых моделей (LLM) автоматизировать оценку ReviewScore. Затем мы измеряем согласие между людьми и моделями по показателю ReviewScore с использованием восьми современных LLM и подтверждаем умеренное согласие. Мы также доказываем, что оценка фактической достоверности на уровне предпосылок демонстрирует значительно более высокое согласие, чем оценка на уровне слабых сторон. Подробный анализ разногласий дополнительно подтверждает потенциал полностью автоматизированной оценки ReviewScore.
English
Peer review serves as a backbone of academic research, but in most AI conferences, the review quality is degrading as the number of submissions explodes. To reliably detect low-quality reviews, we define misinformed review points as either "weaknesses" in a review that contain incorrect premises, or "questions" in a review that can be already answered by the paper. We verify that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce ReviewScore indicating if a review point is misinformed. To evaluate the factuality of each premise of weaknesses, we propose an automated engine that reconstructs every explicit and implicit premise from a weakness. We build a human expert-annotated ReviewScore dataset to check the ability of LLMs to automate ReviewScore evaluation. Then, we measure human-model agreements on ReviewScore using eight current state-of-the-art LLMs and verify moderate agreements. We also prove that evaluating premise-level factuality shows significantly higher agreements than evaluating weakness-level factuality. A thorough disagreement analysis further supports a potential of fully automated ReviewScore evaluation.
PDF582September 29, 2025