Faktenüberprüfung: Evidenzbasierte Reviews mit Literaturpositionierung und durchführungsbasierter Behauptungsverifikation

Zusammenfassung

Das Peer-Review-Verfahren im maschinellen Lernen steht unter zunehmendem Druck durch steigende Einreichungszahlen und begrenzte Gutachterkapazitäten. Die meisten auf LLM basierenden Begutachtungssysteme lesen nur das Manuskript und generieren Kommentare ausschließlich aus der Eigenbeschreibung der Arbeit. Dadurch sind ihre Ergebnisse anfällig für die Darstellungsqualität und zeigen Schwächen, wenn die für die Begutachtung erforderlichen Belege in verwandten Arbeiten oder bereitgestelltem Code liegen. Wir stellen FactReview vor, ein evidenzbasiertes Begutachtungssystem, das Behauptungsextraktion, literaturgestützte Einordnung und ausführungsbasierte Behauptungsüberprüfung kombiniert. Für eine eingereichte Arbeit identifiziert FactReview zentrale Behauptungen und berichtete Ergebnisse, ruft ähnliche Arbeiten ab, um die technische Positionierung zu klären, und führt – sofern Code verfügbar ist – das bereitgestellte Repository unter begrenzten Ressourcen aus, um zentrale empirische Aussagen zu testen. Anschließend erzeugt es eine präzise Begutachtung und einen Evidenzbericht, der jeder Hauptbehauptung eines von fünf Labels zuordnet: Belegt, Durch die Arbeit gestützt, Teilweise gestützt, Widersprüchlich oder Nicht schlüssig. In einer Fallstudie zu CompGCN reproduzierte FactReview Ergebnisse, die eng mit den berichteten Werten für Link Prediction und Node Classification übereinstimmten, zeigte aber auch, dass die weitergehende Leistungsbehauptung der Arbeit über verschiedene Aufgaben hinweg nicht vollständig haltbar ist: Bei der Graphklassifikation auf MUTAG lag das reproduzierte Ergebnis bei 88,4 %, während der stärkste in der Arbeit berichtete Baseline-Wert bei 92,6 % bleibt. Die Behauptung ist daher nur teilweise gestützt. Weiter gefasst deutet dieser Fall darauf hin, dass KI im Peer-Review am nützlichsten ist, nicht als endgültige Entscheidungsinstanz, sondern als Werkzeug zur Evidenzsammlung, um Gutachter bei der Erstellung fundierterer Bewertungen zu unterstützen. Der Code ist öffentlich verfügbar unter https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.