AACR-Bench: Bewertung automatischer Code-Reviews mit ganzheitlichem Repository-weitem Kontext

papers.abstract

Hochwertige Evaluierungsbenchmarks sind entscheidend für den Einsatz von Large Language Models (LLMs) im automatisierten Code-Review (ACR). Bestehende Benchmarks weisen jedoch zwei kritische Einschränkungen auf: Erstens fehlt es an Mehrsprachenunterstützung in Repository-weiten Kontexten, was die Generalisierbarkeit der Evaluierungsergebnisse einschränkt; zweitens die Abhängigkeit von verrauschten, unvollständigen Ground-Truth-Daten, die aus rohen Pull-Request-(PR)-Kommentaren abgeleitet werden, was den Umfang der Problemerkennung begrenzt. Um diese Herausforderungen zu bewältigen, stellen wir AACR-Bench vor – einen umfassenden Benchmark, der vollständigen dateiübergreifenden Kontext über mehrere Programmiersprachen hinweg bereitstellt. Im Gegensatz zu traditionellen Datensätzen nutzt AACR-Bench eine „KI-unterstützte, expertengeprüfte“ Annotationspipeline, um latente Defekte aufzudecken, die in ursprünglichen PRs oft übersehen werden, was zu einer 285 %igen Steigerung der Defektabdeckung führt. Umfangreiche Evaluierungen gängiger LLMs mit AACR-Bench zeigen, dass frühere Bewertungen Modellfähigkeiten aufgrund von Datenlimitierungen möglicherweise fehleingeschätzt oder nur teilweise erfasst haben. Unsere Arbeit setzt einen rigoroseren Standard für die ACR-Evaluierung und bietet neue Erkenntnisse für LLM-basiertes ACR: Die Granularität/Ebene des Kontexts und die Wahl der Retrieval-Methoden beeinflussen die ACR-Leistung erheblich, und dieser Einfluss variiert je nach LLM, Programmiersprache und dem LLM-Nutzungsparadigma (z. B. ob eine Agenten-Architektur eingesetzt wird). Code, Daten und weitere Artefakte unseres Evaluierungssatzes sind unter https://github.com/alibaba/aacr-bench verfügbar.

English

High-quality evaluation benchmarks are pivotal for deploying Large Language Models (LLMs) in Automated Code Review (ACR). However, existing benchmarks suffer from two critical limitations: first, the lack of multi-language support in repository-level contexts, which restricts the generalizability of evaluation results; second, the reliance on noisy, incomplete ground truth derived from raw Pull Request (PR) comments, which constrains the scope of issue detection. To address these challenges, we introduce AACR-Bench a comprehensive benchmark that provides full cross-file context across multiple programming languages. Unlike traditional datasets, AACR-Bench employs an "AI-assisted, Expert-verified" annotation pipeline to uncover latent defects often overlooked in original PRs, resulting in a 285% increase in defect coverage. Extensive evaluations of mainstream LLMs on AACR-Bench reveal that previous assessments may have either misjudged or only partially captured model capabilities due to data limitations. Our work establishes a more rigorous standard for ACR evaluation and offers new insights on LLM based ACR, i.e., the granularity/level of context and the choice of retrieval methods significantly impact ACR performance, and this influence varies depending on the LLM, programming language, and the LLM usage paradigm e.g., whether an Agent architecture is employed. The code, data, and other artifacts of our evaluation set are available at https://github.com/alibaba/aacr-bench .

AACR-Bench: Bewertung automatischer Code-Reviews mit ganzheitlichem Repository-weitem Kontext

AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context

papers.abstract

Support