CodeFuse-CR-Bench: Un Benchmark Consapevole della Completezza per la Valutazione End-to-End del Code Review nei Progetti Python
CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
September 18, 2025
Autori: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI
Abstract
La revisione automatica del codice (CR) è un'applicazione chiave per i Modelli Linguistici di Grande Scala (LLMs), ma i progressi sono ostacolati da un "divario con la realtà": i benchmark esistenti valutano i modelli su sotto-task isolati utilizzando dati semplificati e privi di contesto. Ciò non riflette la natura olistica e ricca di contesto della CR nel mondo reale. Per colmare questo divario, introduciamo CodeFuse-CR-Bench, il primo benchmark consapevole della completezza per la valutazione della CR a livello di repository. CodeFuse-CR-Bench comprende 601 istanze di alta qualità provenienti da 70 progetti Python, che coprono nove domini di problemi relativi alle Pull-Request (PR), dove ogni istanza fornisce un contesto ricco e multifaccettato, inclusi il problema associato, i dettagli della PR e lo stato del repository, consentendo una valutazione end-to-end. Oltre alle metriche superficiali, proponiamo anche un nuovo framework di valutazione che combina controlli basati su regole per la posizione e la sintesi con giudizi basati su modelli della qualità della revisione. Presentiamo la prima valutazione su larga scala dei migliori LLM su questo compito completo di CR. I nostri risultati stabiliscono baseline cruciali e rivelano che (1) nessun singolo LLM domina tutti gli aspetti della CR; (2) Gemini 2.5 Pro raggiunge le prestazioni complessive più elevate; e (3) diversi LLM mostrano una robustezza variabile al contesto ridondante. Questi risultati evidenziano la necessità di una valutazione olistica e multidimensionale e forniscono indicazioni pratiche per avanzare verso assistenti di CR veramente intelligenti e pratici.
English
Automated code review (CR) is a key application for Large Language Models
(LLMs), but progress is hampered by a "reality gap": existing benchmarks
evaluate models on isolated sub-tasks using simplified, context-poor data. This
fails to reflect the holistic context-rich nature of real-world CR. To bridge
this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware
benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601
high-quality instances from 70 Python projects covering nine Pull-Request (PR)
problem domains, where each instance provides rich, multi-faceted context
including the associated issue, PR details, and repository state, enabling
end-to-end evaluation. Beyond superficial metrics, we also propose a novel
evaluation framework that combines rule-based checks for location and syntax
with model-based judgments of review quality. We present the first large-scale
assessment of state-of-the-art LLMs on this comprehensive CR task. Our results
establish crucial baselines and reveal that (1) no single LLM dominates all
aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive
performance; and (3) different LLMs exhibit varying robustness to redundant
context. These findings highlight the necessity of holistic, multi-dimensional
evaluation and provide actionable insights for advancing truly intelligent yet
practical CR assistants.