CodeFuse-CR-Bench: Een allesomvattende benchmark voor end-to-end evaluatie van code reviews in Python-projecten
CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
September 18, 2025
Auteurs: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI
Samenvatting
Geautomatiseerde code review (CR) is een belangrijke toepassing voor Large Language Models (LLM's), maar de vooruitgang wordt belemmerd door een "realiteitskloof": bestaande benchmarks evalueren modellen op geïsoleerde deel taken met behulp van vereenvoudigde, contextarme gegevens. Dit weerspiegelt niet de holistische, contextrijke aard van CR in de praktijk. Om deze kloof te overbruggen, introduceren we CodeFuse-CR-Bench, de eerste comprehensiveness-aware benchmark voor repository-level CR-evaluatie. CodeFuse-CR-Bench bestaat uit 601 hoogwaardige instanties van 70 Python-projecten die negen Pull-Request (PR)-probleemdomeinen beslaan, waarbij elke instantie rijke, veelzijdige context biedt, inclusief het bijbehorende issue, PR-details en de repository-status, wat end-to-end evaluatie mogelijk maakt. Naast oppervlakkige metrieken stellen we ook een nieuw evaluatiekader voor dat regelgebaseerde controles voor locatie en syntaxis combineert met modelgebaseerde beoordelingen van de reviewkwaliteit. We presenteren de eerste grootschalige beoordeling van state-of-the-art LLM's op deze uitgebreide CR-taak. Onze resultaten leggen cruciale basislijnen vast en onthullen dat (1) geen enkele LLM alle aspecten van CR domineert; (2) Gemini 2.5 Pro de hoogste algehele prestaties behaalt; en (3) verschillende LLM's variërende robuustheid vertonen tegenover redundante context. Deze bevindingen benadrukken de noodzaak van holistische, multidimensionale evaluatie en bieden actiegerichte inzichten voor het ontwikkelen van echt intelligente en praktische CR-assistenten.
English
Automated code review (CR) is a key application for Large Language Models
(LLMs), but progress is hampered by a "reality gap": existing benchmarks
evaluate models on isolated sub-tasks using simplified, context-poor data. This
fails to reflect the holistic context-rich nature of real-world CR. To bridge
this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware
benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601
high-quality instances from 70 Python projects covering nine Pull-Request (PR)
problem domains, where each instance provides rich, multi-faceted context
including the associated issue, PR details, and repository state, enabling
end-to-end evaluation. Beyond superficial metrics, we also propose a novel
evaluation framework that combines rule-based checks for location and syntax
with model-based judgments of review quality. We present the first large-scale
assessment of state-of-the-art LLMs on this comprehensive CR task. Our results
establish crucial baselines and reveal that (1) no single LLM dominates all
aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive
performance; and (3) different LLMs exhibit varying robustness to redundant
context. These findings highlight the necessity of holistic, multi-dimensional
evaluation and provide actionable insights for advancing truly intelligent yet
practical CR assistants.