Agentisch Refactoring: Een Empirische Studie naar AI-codeeragenten
Agentic Refactoring: An Empirical Study of AI Coding Agents
November 6, 2025
Auteurs: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan
cs.AI
Samenvatting
Agentische codeertools, zoals OpenAI Codex, Claude Code en Cursor, transformeren het landschap van software-engineering. Deze AI-gestuurde systemen functioneren als autonome teamleden die complexe ontwikkeltaken kunnen plannen en uitvoeren. Agents zijn actieve deelnemers geworden bij refactoring, een hoeksteen van duurzame software-ontwikkeling die gericht is op het verbeteren van de interne codekwaliteit zonder waarneembaar gedrag te veranderen. Ondanks hun toenemende adoptie is er een kritisch gebrek aan empirisch begrip over hoe agentische refactoring in de praktijk wordt gebruikt, hoe het zich verhoudt tot mensgestuurde refactoring en welk effect het heeft op de codekwaliteit. Om deze empirische kloof te dichten, presenteren wij een grootschalige studie naar AI-agent-gegenereerde refactorings in real-world open-source Java-projecten, waarbij we 15.451 refactoring-instanties analyseren verspreid over 12.256 pull-requests en 14.988 commits afkomstig uit de AIDev-dataset. Onze empirische analyse toont aan dat refactoring een veelvoorkomende en intentionele activiteit is in dit ontwikkelparadigma, waarbij agents expliciet gericht zijn op refactoring in 26,1% van de commits. Analyse van refactoring-types onthult dat agentische inspanningen worden gedomineerd door low-level, consistentiegerichte bewerkingen, zoals Change Variable Type (11,8%), Rename Parameter (10,4%) en Rename Variable (8,5%), wat een voorkeur weerspiegelt voor gelokaliseerde verbeteringen boven de high-level designwijzigingen die gebruikelijk zijn bij menselijke refactoring. Daarnaast richten de motivaties achter agentische refactoring zich overweldigend op interne kwaliteitszorgen, met onderhoudbaarheid (52,5%) en leesbaarheid (28,1%) als belangrijkste drijfveren. Verder toont kwantitatieve evaluatie van codekwaliteitsmetrieken aan dat agentische refactoring kleine maar statistisch significante verbeteringen oplevert in structurele metrieken, met name voor medium-level veranderingen, waarbij klassegrootte en complexiteit worden verminderd (bijvoorbeeld Class LOC mediaan Δ = -15,25).
English
Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).