ChatPaper.aiChatPaper

CodeFuse-CR-Bench: 파이썬 프로젝트를 위한 종단 간 코드 리뷰 평가를 위한 포괄성 인식 벤치마크

CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

September 18, 2025
저자: Hanyang Guo, Xunjin Zheng, Zihan Liao, Hang Yu, Peng DI, Ziyin Zhang, Hong-Ning Dai
cs.AI

초록

자동화된 코드 리뷰(CR)는 대형 언어 모델(LLM)의 주요 응용 분야 중 하나이지만, "현실 격차"로 인해 진전이 더딘 상황이다. 기존 벤치마크는 단순화되고 맥락이 부족한 데이터를 사용하여 모델을 고립된 하위 작업에 대해 평가함으로써, 실제 CR의 포괄적이고 맥락이 풍부한 특성을 반영하지 못하고 있다. 이러한 격차를 해소하기 위해, 우리는 리포지토리 수준의 CR 평가를 위한 첫 번째 포괄성 인식 벤치마크인 CodeFuse-CR-Bench를 소개한다. CodeFuse-CR-Bench는 70개의 파이썬 프로젝트에서 추출한 601개의 고품질 인스턴스로 구성되어 있으며, 9개의 풀 리퀘스트(PR) 문제 영역을 다룬다. 각 인스턴스는 관련 이슈, PR 세부 정보, 리포지토리 상태 등 풍부하고 다각적인 맥락을 제공하여 종단 간 평가를 가능하게 한다. 또한, 우리는 위치와 구문에 대한 규칙 기반 검사와 리뷰 품질에 대한 모델 기반 판단을 결합한 새로운 평가 프레임워크를 제안한다. 우리는 이 포괄적인 CR 작업에 대해 최신 LLM의 대규모 평가를 처음으로 수행한다. 그 결과, (1) 단일 LLM이 CR의 모든 측면에서 우위를 점하지 못하며, (2) Gemini 2.5 Pro가 가장 높은 종합 성능을 달성하며, (3) 서로 다른 LLM이 중복된 맥락에 대해 다양한 견고성을 보인다는 점을 확인했다. 이러한 발견은 포괄적이고 다차원적인 평가의 필요성을 강조하며, 진정으로 지능적이면서 실용적인 CR 도구를 발전시키기 위한 실행 가능한 통찰을 제공한다.
English
Automated code review (CR) is a key application for Large Language Models (LLMs), but progress is hampered by a "reality gap": existing benchmarks evaluate models on isolated sub-tasks using simplified, context-poor data. This fails to reflect the holistic context-rich nature of real-world CR. To bridge this gap, we introduce CodeFuse-CR-Bench, the first comprehensiveness-aware benchmark for repository-level CR evaluation. CodeFuse-CR-Bench comprises 601 high-quality instances from 70 Python projects covering nine Pull-Request (PR) problem domains, where each instance provides rich, multi-faceted context including the associated issue, PR details, and repository state, enabling end-to-end evaluation. Beyond superficial metrics, we also propose a novel evaluation framework that combines rule-based checks for location and syntax with model-based judgments of review quality. We present the first large-scale assessment of state-of-the-art LLMs on this comprehensive CR task. Our results establish crucial baselines and reveal that (1) no single LLM dominates all aspects of CR; (2) Gemini 2.5 Pro achieves the highest comprehensive performance; and (3) different LLMs exhibit varying robustness to redundant context. These findings highlight the necessity of holistic, multi-dimensional evaluation and provide actionable insights for advancing truly intelligent yet practical CR assistants.
PDF12September 23, 2025