Les agents d'intelligence artificielle pour le codage journalisent-ils comme les humains ? Une étude empirique

Résumé

La journalisation logicielle est essentielle pour maintenir et déboguer des systèmes complexes, mais il reste incertain comment les agents de codage IA gèrent cette exigence non fonctionnelle. Si les travaux antérieurs caractérisent les pratiques de journalisation humaines, les comportements des agents de codage IA et l'efficacité des instructions en langage naturel pour les régir demeurent inexplorés. Pour combler cette lacune, nous menons une étude empirique de 4 550 demandes de tirage agentiques réparties sur 81 dépôts open source. Nous comparons les modèles de journalisation des agents à des bases de référence humaines et analysons l'impact des instructions explicites de journalisation. Nous constatons que les agents modifient moins souvent la journalisation que les humains dans 58,4 % des dépôts, bien qu'ils présentent une densité de journaux plus élevée lorsqu'ils le font. De plus, les instructions explicites de journalisation sont rares (4,7 %) et inefficaces, car les agents ne se conforment pas aux demandes constructives 67 % du temps. Enfin, nous observons que les humains effectuent 72,5 % des réparations de journaux post-génération, agissant comme des « concierges silencieux » qui corrigent les problèmes de journalisation et d'observabilité sans retour d'examen explicite. Ces résultats indiquent un double échec de l'instruction en langage naturel (c'est-à-dire la rareté des instructions de journalisation et la faible conformité des agents), suggérant que des garde-fous déterministes pourraient être nécessaires pour garantir des pratiques de journalisation cohérentes.

English

Software logging is essential for maintaining and debugging complex systems, yet it remains unclear how AI coding agents handle this non-functional requirement. While prior work characterizes human logging practices, the behaviors of AI coding agents and the efficacy of natural language instructions in governing them are unexplored. To address this gap, we conduct an empirical study of 4,550 agentic pull requests across 81 open-source repositories. We compare agent logging patterns against human baselines and analyze the impact of explicit logging instructions. We find that agents change logging less often than humans in 58.4% of repositories, though they exhibit higher log density when they do. Furthermore, explicit logging instructions are rare (4.7%) and ineffective, as agents fail to comply with constructive requests 67% of the time. Finally, we observe that humans perform 72.5% of post-generation log repairs, acting as "silent janitors" who fix logging and observability issues without explicit review feedback. These findings indicate a dual failure in natural language instruction (i.e., scarcity of logging instructions and low agent compliance), suggesting that deterministic guardrails might be necessary to ensure consistent logging practices.

Les agents d'intelligence artificielle pour le codage journalisent-ils comme les humains ? Une étude empirique

Do AI Coding Agents Log Like Humans? An Empirical Study

Résumé

Support