Refactoring Agente: Uno Studio Empirico sugli Agenti di Programmazione IA
Agentic Refactoring: An Empirical Study of AI Coding Agents
November 6, 2025
Autori: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan
cs.AI
Abstract
Gli strumenti di codifica agentivi, come OpenAI Codex, Claude Code e Cursor, stanno trasformando il panorama dell'ingegneria del software. Questi sistemi basati sull'intelligenza artificiale funzionano come membri autonomi di un team, capaci di pianificare ed eseguire compiti di sviluppo complessi. Gli agenti sono diventati partecipanti attivi nel refactoring, un pilastro dello sviluppo software sostenibile volto a migliorare la qualità interna del codice senza alterarne il comportamento osservabile. Nonostante la loro crescente adozione, si riscontra una grave carenza di comprensione empirica riguardo a come il refactoring agentivo venga utilizzato nella pratica, a come si confronti con il refactoring guidato dall'uomo e a quale impatto abbia sulla qualità del codice. Per colmare questa lacuna empirica, presentiamo uno studio su larga scala dei refactoring generati da agenti di IA in progetti Java open-source del mondo reale, analizzando 15.451 istanze di refactoring across 12.256 pull request e 14.988 commit derivati dal dataset AIDev. La nostra analisi empirica mostra che il refactoring è un'attività comune e intenzionale in questo paradigma di sviluppo, con gli agenti che prendono di mira esplicitamente il refactoring nel 26,1% dei commit. L'analisi dei tipi di refactoring rivela che gli sforzi agentivi sono dominati da modifiche di basso livello orientate alla coerenza, come Change Variable Type (11,8%), Rename Parameter (10,4%) e Rename Variable (8,5%), riflettendo una preferenza per miglioramenti localizzati rispetto ai cambiamenti di design di alto livello comuni nel refactoring umano. Inoltre, le motivazioni alla base del refactoring agentivo si concentrano in modo schiacciante su preoccupazioni di qualità interna, con manutenibilità (52,5%) e leggibilità (28,1%). Inoltre, la valutazione quantitativa delle metriche di qualità del codice mostra che il refactoring agentivo produce miglioramenti piccoli ma statisticamente significativi nelle metriche strutturali, in particolare per i cambiamenti di medio livello, riducendo le dimensioni e la complessità delle classi (ad esempio, Class LOC mediana Δ = -15,25).
English
Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).