Revisión Basada en Hechos: Revisiones Fundamentadas en Evidencia con Posicionamiento Bibliográfico y Verificación de Afirmaciones Basada en la Ejecución

Resumen

La revisión por pares en el aprendizaje automático enfrenta una presión creciente debido al aumento del volumen de envíos y al tiempo limitado de los revisores. La mayoría de los sistemas de revisión basados en LLM leen únicamente el manuscrito y generan comentarios a partir de la narrativa propia del artículo. Esto hace que sus resultados sean sensibles a la calidad de la presentación y los debilita cuando la evidencia necesaria para la revisión reside en trabajos relacionados o código publicado. Presentamos FactReview, un sistema de revisión basado en evidencias que combina la extracción de afirmaciones, el posicionamiento en la literatura y la verificación de afirmaciones mediante ejecución. Dado un envío, FactReview identifica las afirmaciones principales y los resultados reportados, recupera trabajos cercanos para clarificar la posición técnica del artículo y, cuando hay código disponible, ejecuta el repositorio publicado bajo presupuestos acotados para probar las afirmaciones empíricas centrales. Luego produce una revisión concisa y un informe de evidencias que asigna a cada afirmación principal una de cinco etiquetas: Respaldada, Respaldada por el artículo, Parcialmente respaldada, En conflicto o No concluyente. En un estudio de caso sobre CompGCN, FactReview reproduce resultados que coinciden estrechamente con los reportados para predicción de enlaces y clasificación de nodos, pero también muestra que la afirmación más amplia del artículo sobre el rendimiento entre tareas no está completamente sustentada: en la clasificación de grafos MUTAG, el resultado reproducido es 88.4%, mientras que la línea base más fuerte reportada en el artículo permanece en 92.6%. Por lo tanto, la afirmación está solo parcialmente respaldada. En términos más amplios, este caso sugiere que la IA es más útil en la revisión por pares no como un tomador de decisiones final, sino como una herramienta para recopilar evidencias y ayudar a los revisores a producir evaluaciones más fundamentadas. El código es público en https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.