Empirische Studie zu den Merkmalen und der Entwicklung der KI-Nutzung in GitHub-Repositories: Belege aus Code-Kommentaren

Zusammenfassung

Entwickler nutzen zunehmend KI-Werkzeuge wie ChatGPT, Copilot und Claude in alltäglichen Software-Workflows, aber frühere Studien bewerten LLM-Ausgaben oft isoliert, anstatt zu untersuchen, wie Entwickler sie in realen Projekten anpassen. Wir analysieren 35.361 GitHub-Codekommentare, die explizit auf KI-Nutzung verweisen, sowie die zugehörigen Codeblöcke. Zunächst codieren wir 500 eindeutige Kommentare und Codeblöcke offen, um eine Taxonomie KI-gestützter Entwicklungsaktivitäten abzuleiten, dann annotieren wir den gesamten Datensatz mithilfe zweier LLM-basierter Klassifikatoren und aggregieren die Vorhersagen mit der Dawid-Skene-Erwartungsmaximierung. Außerdem analysieren wir 12.996 nachfolgende Commit-Nachrichten, um zu untersuchen, wie sich KI-gestützter Code nach seiner Einführung weiterentwickelt, und untersuchen zeitliche Trends von Dezember 2022 bis März 2026. Unsere Ergebnisse zeigen, dass Entwickler LLMs hauptsächlich zur Code-Implementierung nutzen, gefolgt von Code-Verbesserung, Fehlerbehebung, Dokumentation und Tests. Nachfolgende Commits umfassen häufig Refactoring und Bereinigung, Feature-Integration und -Erweiterung sowie Fehlerkorrekturen, was auf eine anhaltende menschliche Kontrolle bei der Anpassung KI-gestützten Codes hindeutet. Im Laufe der Zeit verlagern sich KI-bezogene Kommentare von direkter Codegenerierung hin zu Wissens- und konzeptioneller Unterstützung sowie Code-Verbesserung. Diese Ergebnisse deuten darauf hin, dass KI-Werkzeuge nicht nur als Codegenerierungshilfen, sondern auch als kollaborative Unterstützungsmechanismen integriert werden, deren Ergebnisse von Entwicklern im Laufe der Zeit verfeinert, erweitert und korrigiert werden.

English

Developers increasingly use AI tools such as ChatGPT, Copilot, and Claude in everyday software workflows, but prior studies often evaluate LLM outputs in isolation rather than examining how developers adapt them in real projects. We analyze 35,361 GitHub code comments that explicitly reference AI use and their associated code blocks. We first open-code 500 unique comments and code blocks to derive a taxonomy of AI-assisted development activities, then annotate the full dataset using two LLM-based classifiers and aggregate predictions with Dawid-Skene expectation-maximization. We also analyze 12,996 subsequent commit messages to study how AI-assisted code evolves after introduction, and examine temporal trends from December 2022 to March 2026. Our results show that developers primarily use LLMs for code implementation, followed by code enhancement, debugging, documentation, and testing. Subsequent commits frequently involve refactoring and cleanup, feature integration and extension, and bug fixing, indicating sustained human oversight in adapting AI-assisted code. Over time, AI-referencing comments shift from direct code generation toward knowledge and conceptual support and code enhancement. These findings suggest that AI tools are becoming embedded not only as code-generation aids, but also as collaborative support mechanisms whose outputs are refined, extended, and corrected by developers over time.