SWE-chat: Interacciones de Agentes de Codificación de Usuarios Reales en Entornos Naturales

Resumen

Los asistentes de codificación con IA se están adoptando a gran escala, pero carecemos de evidencia empírica sobre cómo los utiliza realmente la gente y qué parte de su resultado es útil en la práctica. Presentamos SWE-chat, el primer conjunto de datos a gran escala de sesiones reales de agentes de codificación recopiladas de desarrolladores de código abierto en entornos reales. El conjunto de datos contiene actualmente 6.000 sesiones, que comprenden más de 63.000 indicaciones de usuarios y 355.000 llamadas a herramientas del agente. SWE-chat es un conjunto de datos vivo; nuestra canalización de recolección descubre y procesa automáticamente sesiones de repositorios públicos de forma continua. Aprovechando SWE-chat, proporcionamos una caracterización empírica inicial del uso y los modos de fallo de los agentes de codificación en el mundo real. Encontramos que los patrones de codificación son bimodales: en el 41% de las sesiones, los agentes escriben prácticamente todo el código confirmado ("codificación por ambiente"), mientras que en el 23%, los humanos escriben todo el código ellos mismos. A pesar de las capacidades en rápida mejora, los agentes de codificación siguen siendo ineficientes en entornos naturales. Solo el 44% de todo el código producido por el agente sobrevive hasta los commits del usuario, y el código escrito por el agente introduce más vulnerabilidades de seguridad que el código escrito por humanos. Además, los usuarios rechazan los resultados del agente —mediante correcciones, informes de fallos e interrupciones— en el 44% de todos los turnos. Al capturar trazas completas de interacción con atribución de autoría de código humano frente al del agente, SWE-chat proporciona una base empírica para ir más allá de los puntos de referencia cuidadosamente seleccionados hacia una comprensión basada en la evidencia de cómo los agentes de IA se desempeñan en los flujos de trabajo reales de los desarrolladores.

English

AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.

SWE-chat: Interacciones de Agentes de Codificación de Usuarios Reales en Entornos Naturales

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Resumen

Support