Refactorización Agéntica: Un Estudio Empírico de Agentes de Programación con IA

Resumen

Las herramientas de codificación agentes, como OpenAI Codex, Claude Code y Cursor, están transformando el panorama de la ingeniería de software. Estos sistemas impulsados por IA funcionan como compañeros de equipo autónomos capaces de planificar y ejecutar tareas de desarrollo complejas. Los agentes se han convertido en participantes activos en la refactorización, un pilar fundamental del desarrollo de software sostenible destinado a mejorar la calidad interna del código sin alterar el comportamiento observable. A pesar de su creciente adopción, existe una falta crítica de comprensión empírica sobre cómo se utiliza la refactorización agente en la práctica, cómo se compara con la refactorización impulsada por humanos y qué impacto tiene en la calidad del código. Para abordar esta brecha empírica, presentamos un estudio a gran escala de refactorizaciones generadas por agentes de IA en proyectos Java de código abierto del mundo real, analizando 15.451 instancias de refactorización en 12.256 solicitudes de extracción (*pull requests*) y 14.988 *commits* derivados del conjunto de datos AIDev. Nuestro análisis empírico muestra que la refactorización es una actividad común e intencionada en este paradigma de desarrollo, ya que los agentes se dirigen explícitamente a la refactorización en el 26.1% de los *commits*. El análisis de los tipos de refactorización revela que los esfuerzos de los agentes están dominados por ediciones de bajo nivel orientadas a la coherencia, como Cambiar Tipo de Variable (11.8%), Renombrar Parámetro (10.4%) y Renombrar Variable (8.5%), lo que refleja una preferencia por mejoras localizadas sobre los cambios de diseño de alto nivel comunes en la refactorización humana. Además, las motivaciones detrás de la refactorización agente se centran abrumadoramente en preocupaciones de calidad interna, siendo la mantenibilidad (52.5%) y la legibilidad (28.1%) las principales. Asimismo, la evaluación cuantitativa de las métricas de calidad del código muestra que la refactorización agente produce mejoras pequeñas pero estadísticamente significativas en las métricas estructurales, particularmente para cambios de nivel medio, reduciendo el tamaño y la complejidad de las clases (por ejemplo, mediana Δ de LOC de Clase = -15.25).

English

Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).

Refactorización Agéntica: Un Estudio Empírico de Agentes de Programación con IA

Agentic Refactoring: An Empirical Study of AI Coding Agents

Resumen

Support