Sinergia Uomo-IA nella Revisione del Codice Agente

Abstract

La revisione del codice è una pratica fondamentale nell'ingegneria del software, in cui gli sviluppatori esaminano le modifiche al codice prima dell'integrazione per garantirne la qualità, individuare i difetti e migliorarne la manutenibilità. Negli ultimi anni, agenti di IA in grado di comprendere il contesto del codice, pianificare azioni di revisione e interagire con gli ambienti di sviluppo sono stati integrati sempre più nel processo di code review. Tuttavia, esistono ancora poche evidenze empiriche che confrontino l'efficacia degli agenti di IA e dei revisori umani in flussi di lavoro collaborativi. Per colmare questa lacuna, abbiamo condotto un'analisi empirica su larga scala di 278.790 conversazioni di code review relative a 300 progetti open-source su GitHub. Nel nostro studio, ci proponiamo di confrontare le differenze nel feedback fornito dai revisori umani e dagli agenti di IA. Investigiamo i modelli di collaborazione uomo-IA nelle conversazioni di revisione per comprendere come l'interazione influisca sugli esiti della revisione. Inoltre, analizziamo l'adozione nel codice base dei suggerimenti forniti sia dai revisori umani che dagli agenti di IA, e come i suggerimenti adottati modifichino la qualità del codice. I nostri risultati indicano che i revisori umani forniscono un feedback aggiuntivo rispetto agli agenti di IA, includendo la comprensione, i test e il trasferimento di conoscenze. I revisori umani scambiano l'11,8% in più di interazioni quando revisionano codice generato da IA rispetto a codice scritto da umani. Inoltre, i suggerimenti di codice proposti dagli agenti di IA vengono adottati nel codice base con una frequenza significativamente inferiore rispetto a quelli proposti dai revisori umani. Oltre la metà dei suggerimenti non adottati provenienti da agenti di IA sono risultati o incorretti o affrontati tramite correzioni alternative dagli sviluppatori. Quando adottati, i suggerimenti forniti dagli agenti di IA producono aumenti significativamente maggiori nella complessità e nelle dimensioni del codice rispetto a quelli forniti dai revisori umani. Le nostre scoperte suggeriscono che, sebbene gli agenti di IA possano scalare lo screening dei difetti, la supervisione umana rimane fondamentale per garantire la qualità dei suggerimenti e fornire quel feedback contestuale di cui gli agenti di IA sono carenti.

English

Code review is a critical software engineering practice where developers review code changes before integration to ensure code quality, detect defects, and improve maintainability. In recent years, AI agents that can understand code context, plan review actions, and interact with development environments have been increasingly integrated into the code review process. However, there is limited empirical evidence to compare the effectiveness of AI agents and human reviewers in collaborative workflows. To address this gap, we conduct a large-scale empirical analysis of 278,790 code review conversations across 300 open-source GitHub projects. In our study, we aim to compare the feedback differences provided by human reviewers and AI agents. We investigate human-AI collaboration patterns in review conversations to understand how interaction shapes review outcomes. Moreover, we analyze the adoption of code suggestions provided by human reviewers and AI agents into the codebase and how adopted suggestions change code quality. We find that human reviewers provide additional feedback than AI agents, including understanding, testing, and knowledge transfer. Human reviewers exchange 11.8% more rounds when reviewing AI-generated code than human-written code. Moreover, code suggestions made by AI agents are adopted into the codebase at a significantly lower rate than suggestions proposed by human reviewers. Over half of unadopted suggestions from AI agents are either incorrect or addressed through alternative fixes by developers. When adopted, suggestions provided by AI agents produce significantly larger increases in code complexity and code size than suggestions provided by human reviewers. Our findings suggest that while AI agents can scale defect screening, human oversight remains critical for ensuring suggestion quality and providing contextual feedback that AI agents lack.

Sinergia Uomo-IA nella Revisione del Codice Agente

Human-AI Synergy in Agentic Code Review

Abstract

Support