ChatPaper.aiChatPaper

Sinergia Humano-IA na Revisão de Código Agente

Human-AI Synergy in Agentic Code Review

March 16, 2026
Autores: Suzhen Zhong, Shayan Noei, Ying Zou, Bram Adams
cs.AI

Resumo

A revisão de código é uma prática crítica da engenharia de software na qual os desenvolvedores revisam as alterações de código antes da integração para garantir a qualidade do código, detetar defeitos e melhorar a sua capacidade de manutenção. Nos últimos anos, agentes de IA que conseguem compreender o contexto do código, planear ações de revisão e interagir com ambientes de desenvolvimento têm sido cada vez mais integrados no processo de revisão de código. No entanto, existem evidências empíricas limitadas para comparar a eficácia dos agentes de IA e dos revisores humanos em fluxos de trabalho colaborativos. Para colmatar esta lacuna, realizamos uma análise empírica em larga escala de 278.790 conversas de revisão de código em 300 projetos open-source do GitHub. No nosso estudo, pretendemos comparar as diferenças de feedback fornecido por revisores humanos e por agentes de IA. Investigamos os padrões de colaboração humano-IA nas conversas de revisão para compreender como a interação molda os resultados da revisão. Além disso, analisamos a adoção de sugestões de código fornecidas por revisores humanos e agentes de IA na base de código, e como as sugestões adotadas alteram a qualidade do código. Descobrimos que os revisores humanos fornecem feedback adicional em comparação com os agentes de IA, incluindo compreensão, testes e transferência de conhecimento. Os revisores humanos trocam 11,8% mais rondas de conversação ao revisar código gerado por IA do que código escrito por humanos. Adicionalmente, as sugestões de código feitas por agentes de IA são adotadas na base de código a uma taxa significativamente menor do que as sugestões propostas por revisores humanos. Mais de metade das sugestões não adotadas dos agentes de IA são incorretas ou são resolvidas através de correções alternativas pelos desenvolvedores. Quando adotadas, as sugestões fornecidas por agentes de IA produzem aumentos significativamente maiores na complexidade do código e no tamanho do código do que as sugestões fornecidas por revisores humanos. As nossas descobertas sugerem que, embora os agentes de IA possam dimensionar a triagem de defeitos, a supervisão humana permanece crítica para garantir a qualidade das sugestões e fornecer o feedback contextual que falta aos agentes de IA.
English
Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.
PDF32March 24, 2026