AACR-Bench: 저장소 수준의 전체적 맥락을 활용한 자동 코드 리뷰 평가
AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context
January 27, 2026
저자: Lei Zhang, Yongda Yu, Minghui Yu, Xinxin Guo, Zhengqi Zhuang, Guoping Rong, Dong Shao, Haifeng Shen, Hongyu Kuang, Zhengfeng Li, Boge Wang, Guoan Zhang, Bangyu Xiang, Xiaobin Xu
cs.AI
초록
고품질 평가 벤치마크는 대규모 언어 모델(LLM)을 자동 코드 리뷰(ACR)에 적용하는 데 핵심적인 역할을 합니다. 그러나 기존 벤치마크는 두 가지 중요한 한계점을 지니고 있습니다. 첫째, 리포지토리 수준에서 다중 프로그래밍 언어 지원이 부족하여 평가 결과의 일반화에 제약이 있으며, 둘째, 원시 Pull Request(PR) 코멘트에서 추출한 노이즈가 많고 불완전한 실측 정답(Ground Truth)에 의존함으로써 이슈 탐지 범위가 제한된다는 점입니다. 이러한 문제를 해결하기 위해 본 논문은 AACR-Bench를 소개합니다. 이는 여러 프로그래밍 언어에 걸쳐 완전한 교차 파일 컨텍스트를 제공하는 포괄적인 벤치마크입니다. 기존 데이터셋과 달리, AACR-Bench는 "AI 지원, 전문가 검증" 주석 파이프라인을 활용하여 원본 PR에서 종종 간과되는 잠재적 결함을 발견함으로써 결함 커버리지를 285% 증가시켰습니다. AACR-Bench를 이용한 주류 LLM에 대한 광범위한 평가 결과, 데이터의 한계로 인해 기존 평가가 모델 능력을 오판하거나 부분적으로만 파악했을 가능성이 있음이 밝혀졌습니다. 본 연구는 ACR 평가를 위한 더 엄격한 기준을 제시하고 LLM 기반 ACR에 대한 새로운 통찰을 제공합니다. 즉, 컨텍스트의 세분화/수준과 검색 방법 선택이 ACR 성능에 중대한 영향을 미치며, 이 영향은 사용된 LLM, 프로그래밍 언어, 그리고 에이전트 아키텍처 사용 여부와 같은 LLM 활용 패러다임에 따라 다양하게 나타납니다. 평가 세트의 코드, 데이터 및 기타 아티팩트는 https://github.com/alibaba/aacr-bench 에서 확인할 수 있습니다.
English
High-quality evaluation benchmarks are pivotal for deploying Large Language Models (LLMs) in Automated Code Review (ACR). However, existing benchmarks suffer from two critical limitations: first, the lack of multi-language support in repository-level contexts, which restricts the generalizability of evaluation results; second, the reliance on noisy, incomplete ground truth derived from raw Pull Request (PR) comments, which constrains the scope of issue detection. To address these challenges, we introduce AACR-Bench a comprehensive benchmark that provides full cross-file context across multiple programming languages. Unlike traditional datasets, AACR-Bench employs an "AI-assisted, Expert-verified" annotation pipeline to uncover latent defects often overlooked in original PRs, resulting in a 285% increase in defect coverage. Extensive evaluations of mainstream LLMs on AACR-Bench reveal that previous assessments may have either misjudged or only partially captured model capabilities due to data limitations. Our work establishes a more rigorous standard for ACR evaluation and offers new insights on LLM based ACR, i.e., the granularity/level of context and the choice of retrieval methods significantly impact ACR performance, and this influence varies depending on the LLM, programming language, and the LLM usage paradigm e.g., whether an Agent architecture is employed. The code, data, and other artifacts of our evaluation set are available at https://github.com/alibaba/aacr-bench .