ChatPaper.aiChatPaper

Refatoração Orientada por Agentes: Um Estudo Empírico sobre Agentes de Codificação com IA

Agentic Refactoring: An Empirical Study of AI Coding Agents

November 6, 2025
Autores: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan
cs.AI

Resumo

Ferramentas de codificação agentivas, como OpenAI Codex, Claude Code e Cursor, estão transformando o panorama da engenharia de software. Estes sistemas alimentados por IA funcionam como colegas de equipa autónomos, capazes de planear e executar tarefas complexas de desenvolvimento. Os agentes tornaram-se participantes ativos na refatoração, um pilar do desenvolvimento de software sustentável que visa melhorar a qualidade interna do código sem alterar o comportamento observável. Apesar da sua adoção crescente, existe uma carência crítica de compreensão empírica sobre como a refatoração agentiva é utilizada na prática, como se compara à refatoração conduzida por humanos e que impacto tem na qualidade do código. Para colmatar esta lacuna empírica, apresentamos um estudo em larga escala de refatorações geradas por agentes de IA em projetos reais de código aberto em Java, analisando 15.451 instâncias de refatoração em 12.256 *pull requests* e 14.988 *commits* derivados do conjunto de dados AIDev. A nossa análise empírica mostra que a refatoração é uma atividade comum e intencional neste paradigma de desenvolvimento, com os agentes a explicitamente visarem a refatoração em 26,1% dos *commits*. A análise dos tipos de refatoração revela que os esforços agentivos são dominados por edições de baixo nível e orientadas à consistência, como Alterar Tipo de Variável (11,8%), Renomear Parâmetro (10,4%) e Renomear Variável (8,5%), refletindo uma preferência por melhorias localizadas em detrimento das alterações de *design* de alto nível comuns na refatoração humana. Adicionalmente, as motivações por trás da refatoração agentiva focam-se massivamente em preocupações de qualidade interna, com a mantenabilidade (52,5%) e a legibilidade (28,1%) a dominarem. Além disso, a avaliação quantitativa de métricas de qualidade de código mostra que a refatoração agentiva produz melhorias pequenas, mas estatisticamente significativas, nas métricas estruturais, particularmente para alterações de nível médio, reduzindo o tamanho e a complexidade das classes (por exemplo, mediana Δ de Linhas de Código por Classe = -15,25).
English
Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).
PDF52February 8, 2026