ChatPaper.aiChatPaper

Агентный рефакторинг: эмпирическое исследование ИИ-агентов для программирования

Agentic Refactoring: An Empirical Study of AI Coding Agents

November 6, 2025
Авторы: Kosei Horikawa, Hao Li, Yutaro Kashiwa, Bram Adams, Hajimu Iida, Ahmed E. Hassan
cs.AI

Аннотация

Инструменты агентного кодирования, такие как OpenAI Codex, Claude Code и Cursor, трансформируют ландшафт программной инженерии. Эти системы на базе ИИ функционируют как автономные члены команды, способные планировать и выполнять сложные задачи разработки. Агенты стали активными участниками рефакторинга — краеугольного камня устойчивой разработки программного обеспечения, направленного на улучшение внутреннего качества кода без изменения наблюдаемого поведения. Несмотря на растущее внедрение, существует критический недостаток эмпирического понимания того, как агентный рефакторинг используется на практике, как он соотносится с рефакторингом, выполняемым человеком, и какое влияние оказывает на качество кода. Чтобы восполнить этот эмпирический пробел, мы представляем масштабное исследование рефакторингов, сгенерированных ИИ-агентами, в реальных проектах Java с открытым исходным кодом, проанализировав 15 451 экземпляр рефакторинга в 12 256 пул-реквестах и 14 988 коммитах, полученных из набора данных AIDev. Наш эмпирический анализ показывает, что рефакторинг является распространенной и целенаправленной деятельностью в этой парадигме разработки: агенты явно нацеливаются на рефакторинг в 26,1% коммитов. Анализ типов рефакторинга reveals, что усилия агентов в основном сводятся к низкоуровневым, ориентированным на согласованность правкам, таким как изменение типа переменной (11,8%), переименование параметра (10,4%) и переименование переменной (8,5%), что отражает предпочтение локализованных улучшений по сравнению с изменениями высокоуровневого дизайна, характерными для человеческого рефакторинга. Кроме того, мотивация агентного рефакторинга подавляюще сосредоточена на внутренних аспектах качества: сопровождаемость (52,5%) и читаемость (28,1%). Более того, количественная оценка метрик качества кода показывает, что агентный рефакторинг приводит к небольшим, но статистически значимым улучшениям структурных метрик, особенно для изменений среднего уровня, уменьшая размер и сложность классов (например, медианное Δ для Class LOC = -15,25).
English
Agentic coding tools, such as OpenAI Codex, Claude Code, and Cursor, are transforming the software engineering landscape. These AI-powered systems function as autonomous teammates capable of planning and executing complex development tasks. Agents have become active participants in refactoring, a cornerstone of sustainable software development aimed at improving internal code quality without altering observable behavior. Despite their increasing adoption, there is a critical lack of empirical understanding regarding how agentic refactoring is utilized in practice, how it compares to human-driven refactoring, and what impact it has on code quality. To address this empirical gap, we present a large-scale study of AI agent-generated refactorings in real-world open-source Java projects, analyzing 15,451 refactoring instances across 12,256 pull requests and 14,988 commits derived from the AIDev dataset. Our empirical analysis shows that refactoring is a common and intentional activity in this development paradigm, with agents explicitly targeting refactoring in 26.1% of commits. Analysis of refactoring types reveals that agentic efforts are dominated by low-level, consistency-oriented edits, such as Change Variable Type (11.8%), Rename Parameter (10.4%), and Rename Variable (8.5%), reflecting a preference for localized improvements over the high-level design changes common in human refactoring. Additionally, the motivations behind agentic refactoring focus overwhelmingly on internal quality concerns, with maintainability (52.5%) and readability (28.1%). Furthermore, quantitative evaluation of code quality metrics shows that agentic refactoring yields small but statistically significant improvements in structural metrics, particularly for medium-level changes, reducing class size and complexity (e.g., Class LOC median Δ = -15.25).
PDF42December 1, 2025