CodeFuse-CR-Bench: Ein umfassendkeitsbewusster Benchmark für die End-to-End-Bewertung von Code-Reviews in Python-Projekten

papers.abstract

Automatisierte Code-Review (CR) ist eine zentrale Anwendung für Large Language Models (LLMs), doch der Fortschritt wird durch eine „Realitätslücke“ behindert: bestehende Benchmarks bewerten Modelle anhand isolierter Teilaufgaben unter Verwendung vereinfachter, kontextarmer Daten. Dies spiegelt nicht die ganzheitliche, kontextreiche Natur von CR in der Praxis wider. Um diese Lücke zu schließen, führen wir CodeFuse-CR-Bench ein, den ersten umfassendkeitsbewussten Benchmark für die Bewertung von CR auf Repository-Ebene. CodeFuse-CR-Bench umfasst 601 hochwertige Instanzen aus 70 Python-Projekten, die neun Problemdomänen von Pull-Requests (PRs) abdecken. Jede Instanz bietet einen reichhaltigen, vielschichtigen Kontext, einschließlich des zugehörigen Issues, PR-Details und des Repository-Zustands, wodurch eine end-to-end-Bewertung ermöglicht wird. Über oberflächliche Metriken hinaus schlagen wir auch ein neuartiges Bewertungsframework vor, das regelbasierte Prüfungen von Ort und Syntax mit modellbasierten Urteilen zur Review-Qualität kombiniert. Wir präsentieren die erste groß angelegte Bewertung von state-of-the-art LLMs für diese umfassende CR-Aufgabe. Unsere Ergebnisse etablieren entscheidende Baselines und zeigen, dass (1) kein einzelnes LLM alle Aspekte von CR dominiert; (2) Gemini 2.5 Pro die höchste Gesamtleistung erzielt; und (3) verschiedene LLMs unterschiedliche Robustheit gegenüber redundantem Kontext aufweisen. Diese Erkenntnisse unterstreichen die Notwendigkeit einer ganzheitlichen, mehrdimensionalen Bewertung und liefern umsetzbare Einblicke für die Weiterentwicklung wirklich intelligenter und praktischer CR-Assistenten.

English

Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.

CodeFuse-CR-Bench: Ein umfassendkeitsbewusster Benchmark für die End-to-End-Bewertung von Code-Reviews in Python-Projekten

CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

papers.abstract

Support