CodeFuse-CR-Bench: Um Benchmark Conscientizador da Abrangência para Avaliação de Revisão de Código de Ponta a Ponta em Projetos Python
CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
September 18, 2025
Autores: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI
Resumo
A revisão automatizada de código (CR) é uma aplicação fundamental para Modelos de Linguagem de Grande Escala (LLMs), mas o progresso é dificultado por uma "lacuna da realidade": os benchmarks existentes avaliam modelos em sub-tarefas isoladas usando dados simplificados e com pouco contexto. Isso não reflete a natureza holística e rica em contexto da CR do mundo real. Para preencher essa lacuna, introduzimos o CodeFuse-CR-Bench, o primeiro benchmark voltado para a abrangência na avaliação de CR em nível de repositório. O CodeFuse-CR-Bench compreende 601 instâncias de alta qualidade de 70 projetos Python, abrangendo nove domínios de problemas de Pull-Request (PR), onde cada instância fornece um contexto rico e multifacetado, incluindo a issue associada, detalhes do PR e o estado do repositório, permitindo uma avaliação de ponta a ponta. Além de métricas superficiais, também propomos um novo framework de avaliação que combina verificações baseadas em regras para localização e sintaxe com julgamentos baseados em modelos da qualidade da revisão. Apresentamos a primeira avaliação em larga escala dos LLMs mais avançados nesta tarefa abrangente de CR. Nossos resultados estabelecem baselines cruciais e revelam que (1) nenhum LLM domina todos os aspectos da CR; (2) o Gemini 2.5 Pro alcança o maior desempenho abrangente; e (3) diferentes LLMs exibem variada robustez a contextos redundantes. Essas descobertas destacam a necessidade de uma avaliação holística e multidimensional e fornecem insights acionáveis para o avanço de assistentes de CR verdadeiramente inteligentes e práticos.
English
Automated code review (CR) is a key application for Large Language Models
(LLMs), but progress is hampered by a "reality gap": existing benchmarks
evaluate models on isolated sub-tasks using simplified, context-poor data. This
fails to reflect the holistic context-rich nature of real-world CR. To bridge
this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware
benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601
high-quality instances from 70 Python projects covering nine Pull-Request (PR)
problem domains, where each instance provides rich, multi-faceted context
including the associated issue, PR details, and repository state, enabling
end-to-end evaluation. Beyond superficial metrics, we also propose a novel
evaluation framework that combines rule-based checks for location and syntax
with model-based judgments of review quality. We present the first large-scale
assessment of state-of-the-art LLMs on this comprehensive CR task. Our results
establish crucial baselines and reveal that (1) no single LLM dominates all
aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive
performance; and (3) different LLMs exhibit varying robustness to redundant
context. These findings highlight the necessity of holistic, multi-dimensional
evaluation and provide actionable insights for advancing truly intelligent yet
practical CR assistants.