Protokollieren KI-Codierungsagenten wie Menschen? Eine empirische Studie

Zusammenfassung

Software-Logging ist entscheidend für die Wartung und Fehlerbehebung komplexer Systeme, dennoch ist unklar, wie KI-Coding-Agents mit dieser nicht-funktionalen Anforderung umgehen. Während frühere Arbeiten die Logging-Praktiken von Menschen charakterisieren, sind das Verhalten von KI-Coding-Agents und die Wirksamkeit natürlicher Sprachanweisungen zu deren Steuerung unerforscht. Um diese Lücke zu schließen, führen wir eine empirische Studie mit 4.550 agentenbasierten Pull Requests in 81 Open-Source-Repositories durch. Wir vergleichen die Logging-Muster von Agents mit menschlichen Baseline-Werten und analysieren die Auswirkungen expliziter Logging-Anweisungen. Wir stellen fest, dass Agents in 58,4 % der Repositorys Logging seltener ändern als Menschen, obwohl sie eine höhere Log-Dichte aufweisen, wenn sie es tun. Darüber hinaus sind explizite Logging-Anweisungen selten (4,7 %) und unwirksam, da Agents in 67 % der Fälle konstruktiven Anforderungen nicht nachkommen. Schließlich beobachten wir, dass Menschen 72,5 % der Log-Reparaturen nach der Generierung durchführen und als „stille Hausmeister“ agieren, die Logging- und Observability-Probleme ohne explizites Review-Feedback beheben. Diese Ergebnisse deuten auf ein doppeltes Versagen natürlicher Sprachsteuerung hin (d.h. Knappheit von Logging-Anweisungen und geringe Agenten-Compliance), was nahelegt, dass deterministische Guardrails notwendig sein könnten, um konsistente Logging-Praktiken sicherzustellen.

English

Software logging is essential for maintaining and debugging complex systems, yet it remains unclear how AI coding agents handle this non-functional requirement. While prior work characterizes human logging practices, the behaviors of AI coding agents and the efficacy of natural language instructions in governing them are unexplored. To address this gap, we conduct an empirical study of 4,550 agentic pull requests across 81 open-source repositories. We compare agent logging patterns against human baselines and analyze the impact of explicit logging instructions. We find that agents change logging less often than humans in 58.4% of repositories, though they exhibit higher log density when they do. Furthermore, explicit logging instructions are rare (4.7%) and ineffective, as agents fail to comply with constructive requests 67% of the time. Finally, we observe that humans perform 72.5% of post-generation log repairs, acting as "silent janitors" who fix logging and observability issues without explicit review feedback. These findings indicate a dual failure in natural language instruction (i.e., scarcity of logging instructions and low agent compliance), suggesting that deterministic guardrails might be necessary to ensure consistent logging practices.

Protokollieren KI-Codierungsagenten wie Menschen? Eine empirische Studie

Do AI Coding Agents Log Like Humans? An Empirical Study

Zusammenfassung

Support