Refactorisation Agentique : Une Étude Empirique des Agents d'Intelligence Artificielle pour le Codage
Agentic Refactoring: An Empirical Study of AI Coding Agents
November 6, 2025
papers.authors: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan
cs.AI
papers.abstract
Les outils de codage agentiques, tels qu'OpenAI Codex, Claude Code et Cursor, transforment le paysage de l'ingénierie logicielle. Ces systèmes alimentés par l'IA fonctionnent comme des coéquipiers autonomes capables de planifier et d'exécuter des tâches de développement complexes. Les agents sont devenus des participants actifs dans le remaniement (refactoring), une pierre angulaire du développement logiciel durable visant à améliorer la qualité interne du code sans modifier le comportement observable. Malgré leur adoption croissante, il existe un manque critique de compréhension empirique concernant la façon dont le remaniement agentique est utilisé en pratique, comment il se compare au remaniement piloté par l'homme et quel impact il a sur la qualité du code. Pour combler cette lacune empirique, nous présentons une étude à grande échelle des remaniements générés par des agents d'IA dans des projets Java open source réels, analysant 15 451 instances de remaniement issues de 12 256 demandes de tirage (pull requests) et 14 988 validations (commits) provenant du jeu de données AIDev. Notre analyse empirique montre que le remaniement est une activité courante et intentionnelle dans ce paradigme de développement, les agents ciblant explicitement le remaniement dans 26,1 % des validations. L'analyse des types de remaniement révèle que les efforts agentiques sont dominés par des modifications de bas niveau, orientées vers la cohérence, telles que Changer le Type de Variable (11,8 %), Renommer le Paramètre (10,4 %) et Renommer la Variable (8,5 %), reflétant une préférence pour les améliorations localisées par rapport aux modifications de conception de haut niveau courantes dans le remaniement humain. De plus, les motivations derrière le remaniement agentique se concentrent massivement sur des préoccupations de qualité interne, avec la maintenabilité (52,5 %) et la lisibilité (28,1 %). En outre, l'évaluation quantitative des métriques de qualité du code montre que le remaniement agentique produit de petites améliorations statistiquement significatives des métriques structurelles, particulièrement pour les changements de niveau moyen, réduisant la taille et la complexité des classes (par exemple, médiane Δ de la LOC des classes = -15,25).
English
Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).