ChatPaper.aiChatPaper

CodeFuse-CR-Bench: Een allesomvattende benchmark voor end-to-end evaluatie van code reviews in Python-projecten

CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

September 18, 2025
Auteurs: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI

Samenvatting

Geautomatiseerde code review (CR) is een belangrijke toepassing voor Large Language Models (LLM's), maar de vooruitgang wordt belemmerd door een "realiteitskloof": bestaande benchmarks evalueren modellen op geïsoleerde deel taken met behulp van vereenvoudigde, contextarme gegevens. Dit weerspiegelt niet de holistische, contextrijke aard van CR in de praktijk. Om deze kloof te overbruggen, introduceren we CodeFuse-CR-Bench, de eerste comprehensiveness-aware benchmark voor repository-level CR-evaluatie. CodeFuse-CR-Bench bestaat uit 601 hoogwaardige instanties van 70 Python-projecten die negen Pull-Request (PR)-probleemdomeinen beslaan, waarbij elke instantie rijke, veelzijdige context biedt, inclusief het bijbehorende issue, PR-details en de repository-status, wat end-to-end evaluatie mogelijk maakt. Naast oppervlakkige metrieken stellen we ook een nieuw evaluatiekader voor dat regelgebaseerde controles voor locatie en syntaxis combineert met modelgebaseerde beoordelingen van de reviewkwaliteit. We presenteren de eerste grootschalige beoordeling van state-of-the-art LLM's op deze uitgebreide CR-taak. Onze resultaten leggen cruciale basislijnen vast en onthullen dat (1) geen enkele LLM alle aspecten van CR domineert; (2) Gemini 2.5 Pro de hoogste algehele prestaties behaalt; en (3) verschillende LLM's variërende robuustheid vertonen tegenover redundante context. Deze bevindingen benadrukken de noodzaak van holistische, multidimensionale evaluatie en bieden actiegerichte inzichten voor het ontwikkelen van echt intelligente en praktische CR-assistenten.
English
Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.
PDF12September 23, 2025