Untersuchung der Beiträge autonomer Agenten in der Praxis: Aktivitätsmuster und Codeänderungen im Zeitverlauf

Zusammenfassung

Der Aufstieg großer Sprachmodelle für Code hat die Softwareentwicklung neu gestaltet. Autonome Code-Agenten, die in der Lage sind, Branches zu erstellen, Pull Requests zu öffnen und Code-Reviews durchzuführen, tragen aktiv zu realen Projekten bei. Ihre wachsende Rolle bietet eine einzigartige und zeitgemäße Gelegenheit, KI-gesteuerte Beiträge und deren Auswirkungen auf Code-Qualität, Teamdynamik und Software-Wartbarkeit zu untersuchen. In dieser Arbeit erstellen wir einen neuartigen Datensatz von etwa 110.000 Open-Source-Pull-Requests, einschließlich zugehöriger Commits, Kommentare, Reviews, Issues und Dateiänderungen, die gemeinsam Millionen von Quellcode-Zeilen repräsentieren. Wir vergleichen fünf beliebte Code-Agenten, darunter OpenAI Codex, Claude Code, GitHub Copilot, Google Jules und Devin, und untersuchen, wie sich ihre Nutzung in verschiedenen Entwicklungsaspekten unterscheidet, wie Merge-Häufigkeit, bearbeitete Dateitypen und Entwicklerinteraktionssignale, einschließlich Kommentaren und Reviews. Darüber hinaus betonen wir, dass das Erstellen und Überprüfen von Code nur einen kleinen Teil des größeren Softwareentwicklungsprozesses darstellt, da der resultierende Code auch über die Zeit gewartet und aktualisiert werden muss. Daher bieten wir mehrere longitudinale Schätzungen der Überlebens- und Änderungsraten für agentengenerierten im Vergleich zu menschlich erstelltem Code. Letztendlich deuten unsere Ergebnisse auf eine zunehmende Aktivität von Agenten in Open-Source-Projekten hin, obwohl ihre Beiträge im Vergleich zu menschlich erstelltem Code mit höheren Änderungsraten über die Zeit verbunden sind.

English

The rise of large language models for code has reshaped software development. Autonomous coding agents, able to create branches, open pull requests, and perform code reviews, now actively contribute to real-world projects. Their growing role offers a unique and timely opportunity to investigate AI-driven contributions and their effects on code quality, team dynamics, and software maintainability. In this work, we construct a novel dataset of approximately 110,000 open-source pull requests, including associated commits, comments, reviews, issues, and file changes, collectively representing millions of lines of source code. We compare five popular coding agents, including OpenAI Codex, Claude Code, GitHub Copilot, Google Jules, and Devin, examining how their usage differs in various development aspects such as merge frequency, edited file types, and developer interaction signals, including comments and reviews. Furthermore, we emphasize that code authoring and review are only a small part of the larger software engineering process, as the resulting code must also be maintained and updated over time. Hence, we offer several longitudinal estimates of survival and churn rates for agent-generated versus human-authored code. Ultimately, our findings indicate an increasing agent activity in open-source projects, although their contributions are associated with more churn over time compared to human-authored code.

Untersuchung der Beiträge autonomer Agenten in der Praxis: Aktivitätsmuster und Codeänderungen im Zeitverlauf

Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Zusammenfassung

Support