FactReview: Análises Fundamentadas em Evidências com Posicionamento da Literatura e Verificação de Afirmações Baseada em Execução

Resumo

A revisão por pares em aprendizado de máquina está sob crescente pressão devido ao aumento do volume de submissões e ao tempo limitado dos revisores. A maioria dos sistemas de revisão baseados em LLM lê apenas o manuscrito e gera comentários a partir da própria narrativa do artigo. Isso torna suas saídas sensíveis à qualidade da apresentação e as torna fracas quando as evidências necessárias para a revisão estão em trabalhos relacionados ou no código liberado. Apresentamos o FactReview, um sistema de revisão baseado em evidências que combina extração de afirmações, posicionamento na literatura e verificação de afirmações baseada em execução. Dada uma submissão, o FactReview identifica as principais afirmações e resultados relatados, recupera trabalhos próximos para esclarecer o posicionamento técnico do artigo e, quando o código está disponível, executa o repositório liberado sob orçamentos limitados para testar afirmações empíricas centrais. Ele então produz uma revisão concisa e um relatório de evidências que atribui a cada afirmação principal um de cinco rótulos: Suportado, Suportado pelo artigo, Parcialmente suportado, Em conflito ou Inconclusivo. Em um estudo de caso sobre o CompGCN, o FactReview reproduz resultados que se aproximam dos relatados para previsão de links e classificação de nós, mas também mostra que a afirmação mais ampla de desempenho do artigo entre tarefas não é totalmente sustentada: na classificação de grafos MUTAG, o resultado reproduzido é de 88,4%, enquanto a linha de base mais forte relatada no artigo permanece em 92,6%. Portanto, a afirmação é apenas parcialmente suportada. De forma mais ampla, este caso sugere que a IA é mais útil na revisão por pares não como um tomador de decisão final, mas como uma ferramenta para coletar evidências e ajudar os revisores a produzir avaliações mais fundamentadas em evidências. O código é público em https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.