ReviewScore: Rilevamento di Revisioni Tra Pari Errate con Modelli Linguistici di Grande Dimensione
ReviewScore: Misinformed Peer Review Detection with Large Language Models
September 25, 2025
Autori: Hyun Ryu, Doohyuk Jang, Hyemin S. Lee, Joonhyun Jeong, Gyeongman Kim, Donghyeon Cho, Gyouk Chu, Minyeong Hwang, Hyeongwon Jang, Changhun Kim, Haechan Kim, Jina Kim, Joowon Kim, Yoonjeon Kim, Kwanhyung Lee, Chanjae Park, Heecheol Yun, Gregor Betz, Eunho Yang
cs.AI
Abstract
La revisione tra pari rappresenta la spina dorsale della ricerca accademica, ma nella maggior parte delle conferenze di IA, la qualità delle revisioni sta peggiorando con l'esplosione del numero di contributi. Per rilevare in modo affidabile le revisioni di bassa qualità, definiamo i punti di revisione disinformati come "debolezze" in una revisione che contengono premesse errate o "domande" in una revisione a cui il documento risponde già. Verifichiamo che il 15,2% delle debolezze e il 26,4% delle domande siano disinformati e introduciamo ReviewScore per indicare se un punto di revisione è disinformato. Per valutare la veridicità di ciascuna premessa delle debolezze, proponiamo un motore automatizzato che ricostruisce ogni premessa esplicita e implicita da una debolezza. Costruiamo un dataset ReviewScore annotato da esperti umani per verificare la capacità dei LLM di automatizzare la valutazione di ReviewScore. Successivamente, misuriamo l'accordo tra umani e modelli su ReviewScore utilizzando otto LLM all'avanguardia e verifichiamo accordi moderati. Dimostriamo inoltre che la valutazione della veridicità a livello di premessa mostra accordi significativamente più alti rispetto alla valutazione della veridicità a livello di debolezza. Un'analisi approfondita dei disaccordi supporta ulteriormente il potenziale di una valutazione completamente automatizzata di ReviewScore.
English
Peer review serves as a backbone of academic research, but in most AI
conferences, the review quality is degrading as the number of submissions
explodes. To reliably detect low-quality reviews, we define misinformed review
points as either "weaknesses" in a review that contain incorrect premises, or
"questions" in a review that can be already answered by the paper. We verify
that 15.2% of weaknesses and 26.4% of questions are misinformed and introduce
ReviewScore indicating if a review point is misinformed. To evaluate the
factuality of each premise of weaknesses, we propose an automated engine that
reconstructs every explicit and implicit premise from a weakness. We build a
human expert-annotated ReviewScore dataset to check the ability of LLMs to
automate ReviewScore evaluation. Then, we measure human-model agreements on
ReviewScore using eight current state-of-the-art LLMs and verify moderate
agreements. We also prove that evaluating premise-level factuality shows
significantly higher agreements than evaluating weakness-level factuality. A
thorough disagreement analysis further supports a potential of fully automated
ReviewScore evaluation.