SWE-chat: Coderende Agent Interacties Van Echte Gebruikers in de Praktijk

Samenvatting

AI-coderingsagenten worden op grote schaal geadopteerd, maar we beschikken nog over weinig empirisch bewijs over hoe mensen ze daadwerkelijk gebruiken en hoeveel van hun output in de praktijk nuttig is. Wij presenteren SWE-chat, de eerste grootschalige dataset van echte coderingsagentsessies, verzameld bij open-source-ontwikkelaars in de praktijk. De dataset bevat momenteel 6.000 sessies, bestaande uit meer dan 63.000 gebruikersprompts en 355.000 agenttool-aanroepen. SWE-chat is een levende dataset; onze verzamelpijplijn ontdekt en verwerkt automatisch en continu sessies uit publieke repositories. Met behulp van SWE-chat geven we een eerste empirische karakterisering van het gebruik en de faalwijzen van coderingsagenten in de praktijk. Wij constateren dat coderingspatronen bimodaal zijn: in 41% van de sessies schrijven de agenten vrijwel alle gecommitte code ("vibe coding"), terwijl in 23% de mensen alle code zelf schrijven. Ondanks snel verbeterende capaciteiten blijven coderingsagenten in natuurlijke omgevingen inefficiënt. Slechts 44% van alle door agenten geproduceerde code overleeft in gebruikerscommits, en door agenten geschreven code introduceert meer beveiligingslekken dan door mensen geschreven code. Bovendien gaan gebruikers in 44% van alle beurten in tegen de output van agenten – via correcties, foutmeldingen en onderbrekingen. Door complete interactietraceringen vast te leggen met toeschrijving van code-auteurschap tussen mens en agent, biedt SWE-chat een empirische basis om verder te gaan dan gecureerde benchmarks naar een op bewijs gebaseerd begrip van hoe AI-agenten presteren in echte ontwikkelaarsworkflows.

English

AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.

SWE-chat: Coderende Agent Interacties Van Echte Gebruikers in de Praktijk

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Samenvatting

Support