CodeFuse-CR-Bench: Un punto de referencia integral para la evaluación de revisiones de código de extremo a extremo en proyectos de Python

Resumen

La revisión automatizada de código (CR, por sus siglas en inglés) es una aplicación clave para los Modelos de Lenguaje de Gran Escala (LLMs), pero su progreso se ve obstaculizado por una "brecha de realidad": los puntos de referencia existentes evalúan los modelos en sub-tareas aisladas utilizando datos simplificados y con poco contexto. Esto no refleja la naturaleza holística y rica en contexto de la CR en el mundo real. Para cerrar esta brecha, presentamos CodeFuse-CR-Bench, el primer punto de referencia consciente de la exhaustividad para la evaluación de CR a nivel de repositorio. CodeFuse-CR-Bench comprende 601 instancias de alta calidad de 70 proyectos en Python que abarcan nueve dominios de problemas de Pull-Request (PR), donde cada instancia proporciona un contexto rico y multifacético que incluye el problema asociado, los detalles del PR y el estado del repositorio, permitiendo una evaluación de extremo a extremo. Más allá de métricas superficiales, también proponemos un marco de evaluación novedoso que combina verificaciones basadas en reglas para la ubicación y la sintaxis con juicios basados en modelos sobre la calidad de la revisión. Presentamos la primera evaluación a gran escala de los LLMs más avanzados en esta tarea integral de CR. Nuestros resultados establecen líneas de base cruciales y revelan que (1) ningún LLM domina todos los aspectos de la CR; (2) Gemini 2.5 Pro alcanza el mayor rendimiento integral; y (3) diferentes LLMs muestran una robustez variable ante el contexto redundante. Estos hallazgos destacan la necesidad de una evaluación holística y multidimensional y proporcionan ideas prácticas para avanzar hacia asistentes de CR verdaderamente inteligentes y prácticos.

English

Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.

CodeFuse-CR-Bench: Un punto de referencia integral para la evaluación de revisiones de código de extremo a extremo en proyectos de Python

CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

Resumen

Support