Sinergia Humano-IA en la Revisión de Código Agente
Human-AI Synergy in Agentic Code Review
March 16, 2026
Autores: Suzhen Zhong, Shayan Noei, Ying Zou, Bram Adams
cs.AI
Resumen
La revisión de código es una práctica crítica en ingeniería de software donde los desarrolladores revisan los cambios de código antes de su integración para garantizar la calidad del código, detectar defectos y mejorar la mantenibilidad. En los últimos años, los agentes de IA que pueden comprender el contexto del código, planificar acciones de revisión e interactuar con entornos de desarrollo se han integrado cada vez más en el proceso de revisión de código. Sin embargo, existe evidencia empírica limitada para comparar la efectividad de los agentes de IA y los revisores humanos en flujos de trabajo colaborativos. Para abordar esta brecha, realizamos un análisis empírico a gran escala de 278,790 conversaciones de revisión de código en 300 proyectos de código abierto de GitHub. En nuestro estudio, nuestro objetivo es comparar las diferencias en la retroalimentación proporcionada por revisores humanos y agentes de IA. Investigamos los patrones de colaboración humano-IA en las conversaciones de revisión para comprender cómo la interacción moldea los resultados de la revisión. Además, analizamos la adopción en la base de código de las sugerencias de código proporcionadas por revisores humanos y agentes de IA, y cómo las sugerencias adoptadas cambian la calidad del código. Encontramos que los revisores humanos proporcionan retroalimentación adicional en comparación con los agentes de IA, incluyendo comprensión, pruebas y transferencia de conocimiento. Los revisores humanos intercambian un 11.8% más de rondas de comentarios cuando revisan código generado por IA que cuando revisan código escrito por humanos. Además, las sugerencias de código realizadas por agentes de IA se adoptan en la base de código a una tasa significativamente menor que las sugerencias propuestas por revisores humanos. Más de la mitad de las sugerencias no adoptadas de los agentes de IA son incorrectas o son abordadas mediante soluciones alternativas por los desarrolladores. Cuando se adoptan, las sugerencias proporcionadas por los agentes de IA producen aumentos significativamente mayores en la complejidad del código y el tamaño del código que las sugerencias proporcionadas por los revisores humanos. Nuestros hallazgos sugieren que, si bien los agentes de IA pueden escalar la detección de defectos, la supervisión humana sigue siendo crítica para garantizar la calidad de las sugerencias y proporcionar la retroalimentación contextual que falta a los agentes de IA.
English
Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.