Исследование вклада автономных агентов в реальных условиях: паттерны активности и изменения кода с течением времени

Аннотация

Появление больших языковых моделей для работы с кодом изменило ландшафт разработки программного обеспечения. Автономные агенты программирования, способные создавать ветки, открывать пул-реквесты и проводить код-ревью, теперь активно участвуют в реальных проектах. Их растущая роль предоставляет уникальную и своевременную возможность исследовать вклад, осуществляемый с помощью ИИ, и его влияние на качество кода, динамику команд и сопровождаемость программного обеспечения. В данной работе мы создаем новую базу данных, содержащую приблизительно 110 000 пул-реквестов из проектов с открытым исходным кодом, включая связанные коммиты, комментарии, ревью, issues и изменения файлов, что в совокупности представляет миллионы строк исходного кода. Мы сравниваем пять популярных агентов программирования, включая OpenAI Codex, Claude Code, GitHub Copilot, Google Jules и Devin, анализируя различия в их использовании в различных аспектах разработки, таких как частота слияния, типы редактируемых файлов и сигналы взаимодействия с разработчиками, включая комментарии и ревью. Кроме того, мы подчеркиваем, что написание и ревью кода являются лишь малой частью более широкого процесса разработки ПО, поскольку полученный код также должен сопровождаться и обновляться с течением времени. Следовательно, мы предоставляем несколько лонгитюдных оценок показателей выживаемости и частоты изменений для кода, созданного агентами, в сравнении с кодом, написанным человеком. В конечном счете, наши результаты свидетельствуют о растущей активности агентов в проектах с открытым исходным кодом, хотя их вклад связан с большим количеством последующих изменений по сравнению с кодом, созданным человеком.

English

The rise of large language models for code has reshaped software development. Autonomous coding agents, able to create branches, open pull requests, and perform code reviews, now actively contribute to real-world projects. Their growing role offers a unique and timely opportunity to investigate AI-driven contributions and their effects on code quality, team dynamics, and software maintainability. In this work, we construct a novel dataset of approximately 110,000 open-source pull requests, including associated commits, comments, reviews, issues, and file changes, collectively representing millions of lines of source code. We compare five popular coding agents, including OpenAI Codex, Claude Code, GitHub Copilot, Google Jules, and Devin, examining how their usage differs in various development aspects such as merge frequency, edited file types, and developer interaction signals, including comments and reviews. Furthermore, we emphasize that code authoring and review are only a small part of the larger software engineering process, as the resulting code must also be maintained and updated over time. Hence, we offer several longitudinal estimates of survival and churn rates for agent-generated versus human-authored code. Ultimately, our findings indicate an increasing agent activity in open-source projects, although their contributions are associated with more churn over time compared to human-authored code.

Исследование вклада автономных агентов в реальных условиях: паттерны активности и изменения кода с течением времени

Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Аннотация

Support