¿Registran los agentes de codificación con IA como los humanos? Un estudio empírico

Resumen

El registro de software es esencial para mantener y depurar sistemas complejos, sin embargo, no está claro cómo los agentes de codificación con IA manejan este requisito no funcional. Si bien trabajos previos caracterizan las prácticas de registro humanas, los comportamientos de los agentes de codificación con IA y la eficacia de las instrucciones en lenguaje natural para gobernarlos no han sido explorados. Para abordar esta brecha, realizamos un estudio empírico de 4,550 *pull requests* agenticos en 81 repositorios de código abierto. Comparamos los patrones de registro de los agentes con líneas base humanas y analizamos el impacto de las instrucciones explícitas de registro. Encontramos que los agentes cambian el registro con menos frecuencia que los humanos en el 58.4% de los repositorios, aunque exhiben una mayor densidad de registros cuando lo hacen. Además, las instrucciones explícitas de registro son raras (4.7%) e inefectivas, ya que los agentes no cumplen con las solicitudes constructivas el 67% del tiempo. Finalmente, observamos que los humanos realizan el 72.5% de las reparaciones de registro posteriores a la generación, actuando como "consergas silenciosos" que corrigen problemas de registro y observabilidad sin retroalimentación explícita de revisión. Estos hallazgos indican un doble fallo en la instrucción de lenguaje natural (escasez de instrucciones de registro y baja conformidad de los agentes), sugiriendo que podrían ser necesarias barreras de protección deterministas para garantizar prácticas de registro consistentes.

English

Software logging is essential for maintaining and debugging complex systems, yet it remains unclear how AI coding agents handle this non-functional requirement. While prior work characterizes human logging practices, the behaviors of AI coding agents and the efficacy of natural language instructions in governing them are unexplored. To address this gap, we conduct an empirical study of 4,550 agentic pull requests across 81 open-source repositories. We compare agent logging patterns against human baselines and analyze the impact of explicit logging instructions. We find that agents change logging less often than humans in 58.4% of repositories, though they exhibit higher log density when they do. Furthermore, explicit logging instructions are rare (4.7%) and ineffective, as agents fail to comply with constructive requests 67% of the time. Finally, we observe that humans perform 72.5% of post-generation log repairs, acting as "silent janitors" who fix logging and observability issues without explicit review feedback. These findings indicate a dual failure in natural language instruction (i.e., scarcity of logging instructions and low agent compliance), suggesting that deterministic guardrails might be necessary to ensure consistent logging practices.

¿Registran los agentes de codificación con IA como los humanos? Un estudio empírico

Do AI Coding Agents Log Like Humans? An Empirical Study

Resumen

Support