FactReview: Op feiten gebaseerde beoordelingen met literatuurpositionering en op uitvoering gebaseerde claimverificatie

Samenvatting

Peer review binnen machine learning staat onder toenemende druk door stijgende aantallen ingediende artikelen en beperkte beoordelaarstijd. De meeste op LLM gebaseerde beoordelingssystemen lezen alleen het manuscript en genereren commentaar op basis van de eigen narratief van het artikel. Hierdoor zijn hun uitvoeren gevoelig voor de presentatiekwaliteit en zijn ze zwak wanneer het benodigde bewijsmateriaal voor de beoordeling ligt in gerelateerd werk of vrijgegeven code. Wij presenteren FactReview, een op bewijsmateriaal gebaseerd beoordelingssysteem dat claimextractie, positionering binnen de literatuur en op executie gebaseerde claimverificatie combineert. Gegeven een ingediend artikel identificeert FactReview de belangrijkste claims en gerapporteerde resultaten, haalt verwant werk op om de technische positie van het artikel te verduidelijken, en voert – indien code beschikbaar is – de vrijgegeven repository uit binnen begrote budgetten om centrale empirische claims te testen. Vervolgens produceert het een beknopte review en een bewijsrapport dat elke hoofdclaim voorziet van een van vijf labels: **Ondersteund**, **Ondersteund door het artikel**, **Gedeeltelijk ondersteund**, **In tegenspraak**, of **Niet-conclusief**. In een casestudy over CompGCN reproduceert FactReview resultaten die nauw aansluiten bij de gerapporteerde resultaten voor link prediction en node classification, maar toont ook aan dat de bredere prestatieclaim van het artikel over taken heen niet volledig standhoudt: voor MUTAG-grafclassificatie is het gereproduceerde resultaat 88,4%, terwijl de sterkste baseline in het artikel 92,6% blijft. De claim is daarom slechts gedeeltelijk ondersteund. In bredere zin suggereert deze casus dat AI het nuttigst is in peer review niet als eindbeslisser, maar als een hulpmiddel voor het verzamelen van bewijsmateriaal en het helpen van beoordelaars om meer op bewijs gebaseerde beoordelingen te produceren. De code is openbaar op https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.