CodeFuse-CR-Bench: Комплексный бенчмарк для сквозной оценки ревью кода в проектах на Python с учетом полноты анализа
CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects
September 18, 2025
Авторы: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI
Аннотация
Автоматизированный анализ кода (Code Review, CR) является ключевым применением больших языковых моделей (LLMs), однако прогресс в этой области сдерживается "разрывом с реальностью": существующие бенчмарки оценивают модели на изолированных подзадачах с использованием упрощенных данных, лишенных контекста. Это не отражает целостный и насыщенный контекстом характер реального CR. Чтобы преодолеть этот разрыв, мы представляем CodeFuse-CR-Bench — первый бенчмарк для оценки CR на уровне репозитория, учитывающий комплексность. CodeFuse-CR-Bench включает 601 высококачественный пример из 70 проектов на Python, охватывающих девять проблемных областей Pull-Request (PR), где каждый пример предоставляет богатый, многогранный контекст, включая связанную задачу, детали PR и состояние репозитория, что позволяет проводить сквозную оценку. Помимо поверхностных метрик, мы также предлагаем новую систему оценки, которая сочетает проверки на основе правил для определения местоположения и синтаксиса с суждениями на основе моделей о качестве анализа. Мы представляем первую масштабную оценку современных LLM на этой комплексной задаче CR. Наши результаты устанавливают важные базовые показатели и показывают, что (1) ни одна LLM не доминирует во всех аспектах CR; (2) Gemini 2.5 Pro демонстрирует наивысшую комплексную производительность; и (3) разные LLM проявляют различную устойчивость к избыточному контексту. Эти выводы подчеркивают необходимость целостной, многомерной оценки и предоставляют практические рекомендации для продвижения действительно интеллектуальных и практичных помощников для CR.
English
Automated code review (CR) is a key application for Large Language Models
(LLMs), but progress is hampered by a "reality gap": existing benchmarks
evaluate models on isolated sub-tasks using simplified, context-poor data. This
fails to reflect the holistic context-rich nature of real-world CR. To bridge
this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware
benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601
high-quality instances from 70 Python projects covering nine Pull-Request (PR)
problem domains, where each instance provides rich, multi-faceted context
including the associated issue, PR details, and repository state, enabling
end-to-end evaluation. Beyond superficial metrics, we also propose a novel
evaluation framework that combines rule-based checks for location and syntax
with model-based judgments of review quality. We present the first large-scale
assessment of state-of-the-art LLMs on this comprehensive CR task. Our results
establish crucial baselines and reveal that (1) no single LLM dominates all
aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive
performance; and (3) different LLMs exhibit varying robustness to redundant
context. These findings highlight the necessity of holistic, multi-dimensional
evaluation and provide actionable insights for advancing truly intelligent yet
practical CR assistants.