FactReview: Обзоры на основе доказательств с позиционированием литературы и проверкой утверждений на основе исполнения

Аннотация

Рецензирование в машинном обучении испытывает растущее давление из-за увеличивающегося потока подаваемых работ и ограниченного времени рецензентов. Большинство систем рецензирования на основе больших языковых моделей (LLM) читают только рукопись и генерируют комментарии на основе собственного повествования статьи. Это делает их выводы чувствительными к качеству изложения и слабыми в случаях, когда доказательства, необходимые для рецензирования, содержатся в смежных работах или опубликованном коде. Мы представляем FactReview — систему рецензирования, основанную на доказательствах, которая сочетает извлечение утверждений, позиционирование в литературе и проверку утверждений на основе исполнения кода. Для данной статьи FactReview выявляет основные утверждения и заявленные результаты, находит близкие работы для уточнения технической позиции статьи и, при наличии кода, исполняет опубликованный репозиторий в рамках ограниченных ресурсов для проверки ключевых эмпирических утверждений. Затем система формирует сжатую рецензию и отчет с доказательствами, присваивая каждому основному утверждению одну из пяти меток: **Подтверждено**, **Подтверждено статьей**, **Частично подтверждено**, **В противоречии** или **Неопределенно**. В кейс-стади на примере CompGCN, FactReview воспроизводит результаты, близкие к заявленным для прогнозирования связей и классификации узлов, но также показывает, что более широкое утверждение статьи о производительности across tasks не полностью подтверждается: для классификации графов MUTAG воспроизведенный результат составляет 88.4%, тогда как сильнейший базовый показатель, указанный в статье, остается на уровне 92.6%. Таким образом, утверждение лишь частично подтверждено. В более широком смысле, этот случай свидетельствует, что ИИ наиболее полезен в рецензировании не как окончательный арбитр, а как инструмент для сбора доказательств и помощи рецензентам в формировании более обоснованных оценок. Код общедоступен по адресу https://github.com/DEFENSE-SEU/Review-Assistant.

English

Peer review in machine learning is under growing pressure from rising submission volume and limited reviewer time. Most LLM-based reviewing systems read only the manuscript and generate comments from the paper's own narrative. This makes their outputs sensitive to presentation quality and leaves them weak when the evidence needed for review lies in related work or released code. We present FactReview, an evidence-grounded reviewing system that combines claim extraction, literature positioning, and execution-based claim verification. Given a submission, FactReview identifies major claims and reported results, retrieves nearby work to clarify the paper's technical position, and, when code is available, executes the released repository under bounded budgets to test central empirical claims. It then produces a concise review and an evidence report that assigns each major claim one of five labels: Supported, Supported by the paper, Partially supported, In conflict, or Inconclusive. In a case study on CompGCN, FactReview reproduces results that closely match those reported for link prediction and node classification, yet also shows that the paper's broader performance claim across tasks is not fully sustained: on MUTAG graph classification, the reproduced result is 88.4%, whereas the strongest baseline reported in the paper remains 92.6%. The claim is therefore only partially supported. More broadly, this case suggests that AI is most useful in peer review not as a final decision-maker, but as a tool for gathering evidence and helping reviewers produce more evidence-grounded assessments. The code is public at https://github.com/DEFENSE-SEU/Review-Assistant.