Synergie Humain-IA dans la Révision de Code Agentique

Résumé

La revue de code est une pratique essentielle en génie logiciel, où les développeurs examinent les modifications de code avant leur intégration afin d'en garantir la qualité, d'y détecter les défauts et d'en améliorer la maintenabilité. Ces dernières années, des agents IA capables de comprendre le contexte du code, de planifier des actions de revue et d'interagir avec les environnements de développement sont de plus en plus intégrés dans le processus de revue de code. Cependant, il existe peu de preuves empiriques comparant l'efficacité des agents IA et des réviseurs humains dans des workflows collaboratifs. Pour combler cette lacune, nous menons une analyse empirique à grande portée de 278 790 conversations de revue de code issues de 300 projets open-source GitHub. Notre étude vise à comparer les différences de feedback fournies par les réviseurs humains et les agents IA. Nous étudions les modèles de collaboration humain-IA dans les conversations de revue pour comprendre comment l'interaction façonne les résultats. De plus, nous analysons l'adoption des suggestions de code fournies par les réviseurs humains et les agents IA dans la base de code, et comment les suggestions adoptées modifient la qualité du code. Nous constatons que les réviseurs humains fournissent des retours supplémentaires par rapport aux agents IA, notamment en matière de compréhension, de test et de transfert de connaissances. Les réviseurs humains échangent 11,8 % de tours de conversation supplémentaires lorsqu'ils examinent du code généré par IA par rapport au code écrit par des humains. De plus, les suggestions de code faites par les agents IA sont adoptées dans la base de code à un taux significativement plus faible que celles proposées par les réviseurs humains. Plus de la moitié des suggestions non adoptées provenant d'agents IA sont soit incorrectes, soit traitées par des correctifs alternatifs par les développeurs. Lorsqu'elles sont adoptées, les suggestions fournies par les agents IA entraînent des augmentations significativement plus importantes de la complexité et de la taille du code que les suggestions des réviseurs humains. Nos résultats suggèrent que si les agents IA peuvent industrialiser la détection des défauts, la supervision humaine reste essentielle pour garantir la qualité des suggestions et fournir un retour contextuel que les agents IA ne possèdent pas.

English

Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.

Synergie Humain-IA dans la Révision de Code Agentique

Human-AI Synergy in Agentic Code Review

Résumé

Support