Mens-AI-synergie in agentgestuurde codebeoordeling
Human-AI Synergy in Agentic Code Review
March 16, 2026
Auteurs: Suzhen Zhong, Shayan Noei, Ying Zou, Bram Adams
cs.AI
Samenvatting
Code review is een essentiële software-engineeringpraktijk waarbij ontwikkelaars codewijzigingen beoordelen vóór integratie om de codekwaliteit te waarborgen, defecten op te sporen en de onderhoudbaarheid te verbeteren. De laatste jaren worden AI-agenten die codecontext kunnen begrijpen, reviewacties kunnen plannen en met ontwikkelomgevingen kunnen interacteren, steeds vaker geïntegreerd in het code review-proces. Er is echter beperkt empirisch bewijs om de effectiviteit van AI-agenten en menselijke reviewers in collaboratieve workflows te vergelijken. Om deze leemte aan te pakken, voeren we een grootschalige empirische analyse uit van 278.790 code review-gesprekken in 300 open-source GitHub-projecten. In onze studie streven we ernaar de feedbackverschillen van menselijke reviewers en AI-agenten te vergelijken. We onderzoeken mens-AI-samenwerkingspatronen in reviewgesprekken om te begrijpen hoe interactie de reviewresultaten vormgeeft. Bovendien analyseren we de adoptie van codesuggesties van menselijke reviewers en AI-agenten in de codebase, en hoe geadopteerde suggesties de codekwaliteit veranderen. We constateren dat menselijke reviewers aanvullende feedback geven dan AI-agenten, waaronder begrip, testen en kennisoverdracht. Menselijke reviewers wisselen 11,8% meer interactieronden uit bij het reviewen van AI-gegenereerde code dan bij door mensen geschreven code. Bovendien worden codesuggesties van AI-agenten aanzienlijk minder vaak in de codebase geadopteerd dan suggesties van menselijke reviewers. Meer dan de helft van de niet-geadopteerde suggesties van AI-agenten is incorrect of wordt door ontwikkelaars via alternatieve oplossingen aangepakt. Wanneer ze worden geadopteerd, leiden suggesties van AI-agenten tot een significant grotere toename van codecomplexiteit en codegrootte dan suggesties van menselijke reviewers. Onze bevindingen suggereren dat hoewel AI-agenten defectenscreening kunnen opschalen, menselijk toezicht cruciaal blijft om de kwaliteit van suggesties te waarborgen en contextuele feedback te geven die AI-agenten ontbreekt.
English
Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.