ChatPaper.aiChatPaper

CodeFuse-CR-Bench: Pythonプロジェクトにおけるエンドツーエンドコードレビュー評価のための包括性を考慮したベンチマーク

CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

September 18, 2025
著者: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI

要旨

自動コードレビュー(CR)は、大規模言語モデル(LLM)の重要な応用分野であるが、その進展は「現実のギャップ」によって妨げられている。既存のベンチマークは、簡素化され、文脈が乏しいデータを用いて、モデルを孤立したサブタスクで評価している。これでは、現実世界のCRが持つ包括的で文脈豊かな性質を反映できない。このギャップを埋めるため、我々はリポジトリレベルのCR評価を目的とした初の包括性を意識したベンチマークであるCodeFuse-CR-Benchを導入する。CodeFuse-CR-Benchは、70のPythonプロジェクトから抽出された601の高品質なインスタンスで構成され、9つのプルリクエスト(PR)問題領域をカバーしている。各インスタンスは、関連する課題、PRの詳細、リポジトリの状態など、多面的で豊かな文脈を提供し、エンドツーエンドの評価を可能にする。表面的な指標を超えて、我々はまた、位置と構文に関するルールベースのチェックと、レビュー品質に関するモデルベースの判断を組み合わせた新しい評価フレームワークを提案する。我々は、この包括的なCRタスクにおいて、最先端のLLMに対する初の大規模な評価を提示する。その結果、重要なベースラインが確立され、(1)すべてのCRの側面を支配する単一のLLMは存在しないこと、(2)Gemini 2.5 Proが最も高い包括的性能を達成すること、(3)異なるLLMが冗長な文脈に対して異なる堅牢性を示すことが明らかになった。これらの知見は、包括的で多次元的な評価の必要性を強調し、真に知的で実用的なCRアシスタントを進化させるための実践的な洞察を提供する。
English
Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.
PDF12September 23, 2025