FactReview: Revisioni Basate su Evidenze con Posizionamento della Letteratura e Verifica delle Affermazioni Basata sull'Esecuzione

Abstract

La revisione tra pari nell'apprendimento automatico è sottoposta a una crescente pressione dovuta all'aumento dei volumi di sottomissione e al tempo limitato dei revisori. La maggior parte dei sistemi di revisione basati su LLM legge solo il manoscritto e genera commenti basandosi esclusivamente sulla narrazione del documento. Ciò rende i loro output sensibili alla qualità della presentazione e li rende deboli quando le evidenze necessarie per la revisione risiedono nella letteratura correlata o nel codice rilasciato. Presentiamo FactReview, un sistema di revisione basato su evidenze che combina estrazione di affermazioni, posizionamento nella letteratura e verifica delle affermazioni basata sull'esecuzione. Dato un documento, FactReview identifica le affermazioni principali e i risultati riportati, recupera lavori affini per chiarire la posizione tecnica del documento e, quando il codice è disponibile, esegue il repository rilasciato con budget limitati per testare le affermazioni empiriche centrali. Produce quindi una revisione concisa e un report evidenziale che assegna a ogni affermazione principale una di cinque etichette: Supportata, Supportata dal documento, Parzialmente supportata, In conflitto o Non conclusiva. In uno studio di caso su CompGCN, FactReview riproduce risultati che corrispondono strettamente a quelli riportati per la predizione di link e la classificazione di nodi, ma mostra anche che l'affermazione più ampia del documento sulle prestazioni tra i task non è pienamente sostenuta: sulla classificazione di grafi MUTAG, il risultato riprodotto è 88,4%, mentre il baseline più forte riportato nel documento rimane 92,6%. L'affermazione è quindi solo parzialmente supportata. Più in generale, questo caso suggerisce che l'IA è più utile nella revisione tra pari non come decisore finale, ma come strumento per raccogliere evidenze e aiutare i revisori a produrre valutazioni più fondate su prove concrete. Il codice è pubblico all'indirizzo https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.