CodeFuse-CR-Bench : Un benchmark axé sur l'exhaustivité pour l'évaluation de la revue de code de bout en bout dans les projets Python

papers.abstract

La révision automatisée de code (CR) est une application clé pour les modèles de langage de grande envergure (LLMs), mais les progrès sont entravés par un "fossé de réalité" : les benchmarks existants évaluent les modèles sur des sous-tâches isolées en utilisant des données simplifiées et pauvres en contexte. Cela ne reflète pas la nature holistique et riche en contexte de la CR dans le monde réel. Pour combler ce fossé, nous introduisons CodeFuse-CR-Bench, le premier benchmark axé sur l'exhaustivité pour l'évaluation de la CR au niveau du dépôt. CodeFuse-CR-Bench comprend 601 instances de haute qualité provenant de 70 projets Python couvrant neuf domaines de problèmes de Pull-Request (PR), où chaque instance fournit un contexte riche et multidimensionnel incluant l'issue associée, les détails de la PR et l'état du dépôt, permettant une évaluation de bout en bout. Au-delà des métriques superficielles, nous proposons également un nouveau cadre d'évaluation qui combine des vérifications basées sur des règles pour la localisation et la syntaxe avec des jugements basés sur des modèles pour la qualité de la révision. Nous présentons la première évaluation à grande échelle des LLMs de pointe sur cette tâche de CR complète. Nos résultats établissent des bases cruciales et révèlent que (1) aucun LLM ne domine tous les aspects de la CR ; (2) Gemini 2.5 Pro atteint la performance globale la plus élevée ; et (3) différents LLMs montrent une robustesse variable face au contexte redondant. Ces résultats soulignent la nécessité d'une évaluation holistique et multidimensionnelle et fournissent des insights actionnables pour faire progresser des assistants de CR véritablement intelligents et pratiques.

English

Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.

CodeFuse-CR-Bench : Un benchmark axé sur l'exhaustivité pour l'évaluation de la revue de code de bout en bout dans les projets Python

CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

papers.abstract

Support