Mensch-KI-Synergie bei agentenbasierter Code-Überprüfung
Human-AI Synergy in Agentic Code Review
March 16, 2026
Autoren: Suzhen Zhong, Shayan Noei, Ying Zou, Bram Adams
cs.AI
Zusammenfassung
Code Review ist eine entscheidende Praxis in der Softwareentwicklung, bei der Entwickler Code-Änderungen vor der Integration prüfen, um Codequalität sicherzustellen, Fehler zu erkennen und die Wartbarkeit zu verbessern. In den letzten Jahren werden zunehmend KI-Agenten in den Code-Review-Prozess integriert, die Code-Kontext verstehen, Review-Aktionen planen und mit Entwicklungsumgebungen interagieren können. Allerdings gibt es nur begrenzte empirische Belege, um die Effektivität von KI-Agenten und menschlichen Prüfern in kollaborativen Workflows zu vergleichen. Um diese Lücke zu schließen, führen wir eine groß angelegte empirische Analyse von 278.790 Code-Review-Diskussionen aus 300 Open-Source-GitHub-Projekten durch. In unserer Studie vergleichen wir die Feedback-Unterschiede zwischen menschlichen Prüfern und KI-Agenten. Wir untersuchen Mensch-KI-Kollaborationsmuster in Review-Diskussionen, um zu verstehen, wie Interaktion die Review-Ergebnisse beeinflusst. Darüber hinaus analysieren wir die Übernahme von Code-Vorschlägen menschlicher Prüfer und KI-Agenten in die Codebase und wie übernommene Vorschläge die Codequalität verändern. Wir stellen fest, dass menschliche Prüfer zusätzliches Feedback im Vergleich zu KI-Agenten geben, einschließlich Verständnisfragen, Tests und Wissenstransfer. Menschliche Prüfer tauschen 11,8 % mehr Diskussionsrunden aus, wenn sie KI-generierten Code prüfen, als bei menschengeschriebenem Code. Zudem werden Code-Vorschläge von KI-Agenten signifikant seltener in die Codebase übernommen als Vorschläge menschlicher Prüfer. Über die Hälfte der nicht übernommenen Vorschläge von KI-Agenten sind entweder fehlerhaft oder werden durch alternative Lösungen der Entwickler behoben. Wenn übernommen, führen Vorschläge von KI-Agenten zu signifikant stärkeren Steigerungen der Codekomplexität und Codegröße als Vorschläge menschlicher Prüfer. Unsere Ergebnisse deuten darauf hin, dass KI-Agenten zwar die Fehlerprüfung skalieren können, menschliche Aufsicht jedoch entscheidend bleibt, um die Qualität der Vorschläge sicherzustellen und kontextbezogenes Feedback zu geben, das KI-Agenten fehlt.
English
Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.