CodeFuse-CR-Bench: Ein umfassendkeitsbewusster Benchmark für die End-to-End-Bewertung von Code-Reviews in Python-Projekten
CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
September 18, 2025
papers.authors: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI
papers.abstract
Automatisierte Code-Review (CR) ist eine zentrale Anwendung für Large Language Models (LLMs), doch der Fortschritt wird durch eine „Realitätslücke“ behindert: bestehende Benchmarks bewerten Modelle anhand isolierter Teilaufgaben unter Verwendung vereinfachter, kontextarmer Daten. Dies spiegelt nicht die ganzheitliche, kontextreiche Natur von CR in der Praxis wider. Um diese Lücke zu schließen, führen wir CodeFuse-CR-Bench ein, den ersten umfassendkeitsbewussten Benchmark für die Bewertung von CR auf Repository-Ebene. CodeFuse-CR-Bench umfasst 601 hochwertige Instanzen aus 70 Python-Projekten, die neun Problemdomänen von Pull-Requests (PRs) abdecken. Jede Instanz bietet einen reichhaltigen, vielschichtigen Kontext, einschließlich des zugehörigen Issues, PR-Details und des Repository-Zustands, wodurch eine end-to-end-Bewertung ermöglicht wird. Über oberflächliche Metriken hinaus schlagen wir auch ein neuartiges Bewertungsframework vor, das regelbasierte Prüfungen von Ort und Syntax mit modellbasierten Urteilen zur Review-Qualität kombiniert. Wir präsentieren die erste groß angelegte Bewertung von state-of-the-art LLMs für diese umfassende CR-Aufgabe. Unsere Ergebnisse etablieren entscheidende Baselines und zeigen, dass (1) kein einzelnes LLM alle Aspekte von CR dominiert; (2) Gemini 2.5 Pro die höchste Gesamtleistung erzielt; und (3) verschiedene LLMs unterschiedliche Robustheit gegenüber redundantem Kontext aufweisen. Diese Erkenntnisse unterstreichen die Notwendigkeit einer ganzheitlichen, mehrdimensionalen Bewertung und liefern umsetzbare Einblicke für die Weiterentwicklung wirklich intelligenter und praktischer CR-Assistenten.
English
Automated code review (CR) is a key application for Large Language Models
(LLMs), but progress is hampered by a "reality gap": existing benchmarks
evaluate models on isolated sub-tasks using simplified, context-poor data. This
fails to reflect the holistic context-rich nature of real-world CR. To bridge
this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware
benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601
high-quality instances from 70 Python projects covering nine Pull-Request (PR)
problem domains, where each instance provides rich, multi-faceted context
including the associated issue, PR details, and repository state, enabling
end-to-end evaluation. Beyond superficial metrics, we also propose a novel
evaluation framework that combines rule-based checks for location and syntax
with model-based judgments of review quality. We present the first large-scale
assessment of state-of-the-art LLMs on this comprehensive CR task. Our results
establish crucial baselines and reveal that (1) no single LLM dominates all
aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive
performance; and (3) different LLMs exhibit varying robustness to redundant
context. These findings highlight the necessity of holistic, multi-dimensional
evaluation and provide actionable insights for advancing truly intelligent yet
practical CR assistants.