Agentische Refakturierung: Eine empirische Studie zu KI-Code-Agenten
Agentic Refactoring: An Empirical Study of AI Coding Agents
November 6, 2025
papers.authors: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan
cs.AI
papers.abstract
Agentische Codierungstools wie OpenAI Codex, Claude Code und Cursor verändern die Landschaft der Softwareentwicklung. Diese KI-gestützten Systeme fungieren als autonome Teammitglieder, die in der Lage sind, komplexe Entwicklungsaufgaben zu planen und auszuführen. Agenten sind zu aktiven Teilnehmern beim Refactoring geworden, einem Grundpfeiler nachhaltiger Softwareentwicklung, der darauf abzielt, die interne Codequalität zu verbessern, ohne das beobachtbare Verhalten zu verändern. Trotz ihrer zunehmenden Verbreitung besteht ein eklatanter Mangel an empirischem Verständnis darüber, wie agentisches Refactoring in der Praxis genutzt wird, wie es sich im Vergleich zu menschlichem Refactoring verhält und welche Auswirkungen es auf die Codequalität hat. Um diese empirische Lücke zu schließen, präsentieren wir eine groß angelegte Studie zu KI-Agenten-generierten Refactorings in realen Open-Source-Java-Projekten, in der wir 15.451 Refactoring-Instanzen aus 12.256 Pull Requests und 14.988 Commits aus dem AIDev-Datensatz analysieren. Unsere empirische Analyse zeigt, dass Refactoring in diesem Entwicklungsparadigma eine häufige und bewusste Aktivität ist, wobei Agenten explizit in 26,1 % der Commits auf Refactoring abzielen. Die Analyse der Refactoring-Typen zeigt, dass die agentischen Aktivitäten von niedrigschwelligen, konsistenzorientierten Änderungen dominiert werden, wie z. B. Change Variable Type (11,8 %), Rename Parameter (10,4 %) und Rename Variable (8,5 %). Dies spiegelt eine Präferenz für lokalisierte Verbesserungen wider, im Gegensatz zu den hochrangigen Designänderungen, die beim menschlichen Refactoring üblich sind. Zudem konzentrieren sich die Motivationen für agentisches Refactoring überwiegend auf interne Qualitätsaspekte, insbesondere Wartbarkeit (52,5 %) und Lesbarkeit (28,1 %). Des Weiteren zeigt die quantitative Auswertung von Code-Qualitätsmetriken, dass agentisches Refactoring zu kleinen, aber statistisch signifikanten Verbesserungen bei strukturellen Metriken führt, insbesondere bei Änderungen mittleren Umfangs, die die Klassenkomplexität reduzieren (z. B. mediane Δ Class LOC = -15,25).
English
Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).