RévisionFactuelle : Revues Fondées sur des Preuves avec Positionnement de la Littérature et Vérification des Affirmations Basée sur l'Exécution

Résumé

L'évaluation par les pairs en apprentissage automatique subit une pression croissante due à l'augmentation du volume de soumissions et au temps limité des évaluateurs. La plupart des systèmes d'évaluation basés sur les LLM se contentent de lire le manuscrit et génèrent des commentaires à partir du propre récit de l'article. Cela rend leurs résultats sensibles à la qualité de la présentation et les affaiblit lorsque les preuves nécessaires à l'évaluation se trouvent dans les travaux connexes ou le code publié. Nous présentons FactReview, un système d'évaluation fondé sur des preuves qui combine l'extraction d'affirmations, le positionnement dans la littérature et la vérification des affirmations par exécution. Pour une soumission donnée, FactReview identifie les affirmations principales et les résultats rapportés, récupère les travaux similaires pour clarifier la position technique de l'article et, lorsque le code est disponible, exécute le dépôt publié avec des budgets limités pour tester les affirmations empiriques centrales. Il produit ensuite une évaluation concise et un rapport de preuves qui attribue à chaque affirmation principale l'une des cinq étiquettes : Soutenu, Soutenu par l'article, Partiellement soutenu, En conflit, ou Non concluant. Dans une étude de cas sur CompGCN, FactReview reproduit des résultats qui correspondent étroitement à ceux rapportés pour la prédiction de liens et la classification de nœuds, mais montre également que l'affirmation plus large de performance de l'article sur différentes tâches n'est pas entièrement étayée : sur la classification de graphes MUTAG, le résultat reproduit est de 88,4 %, alors que la baseline la plus forte rapportée dans l'article reste à 92,6 %. L'affirmation n'est donc que partiellement soutenue. Plus largement, ce cas suggère que l'IA est plus utile dans l'évaluation par les pairs non pas comme décisionnaire final, mais comme outil pour recueillir des preuves et aider les évaluateurs à produire des évaluations plus fondées sur des preuves. Le code est public à l'adresse https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.