SWE-chat: Interazioni con Agenti di Codifica da Utenti Reali in Ambiente Non Controllato

Abstract

Gli agenti di codifica IA vengono adottati su larga scala, ma manchiamo di evidenze empiriche su come le persone li utilizzino effettivamente e su quanto del loro output sia utile nella pratica. Presentiamo SWE-chat, il primo dataset su larga scala di sessioni reali con agenti di codifica, raccolto da sviluppatori open-source in contesti reali. Il dataset contiene attualmente 6.000 sessioni, che comprendono oltre 63.000 prompt utente e 355.000 chiamate a strumenti dell'agente. SWE-chat è un dataset vivente; la nostra pipeline di raccolta scopre ed elabora automaticamente e continuamente sessioni da repository pubblici. Sfruttando SWE-chat, forniamo una caratterizzazione empirica iniziale dell'utilizzo e delle modalità di fallimento degli agenti di codifica nel mondo reale. Troviamo che i modelli di codifica sono bimodali: nel 41% delle sessioni, gli agenti scrivono praticamente tutto il codice che viene commitato ("vibe coding"), mentre nel 23% sono gli umani a scrivere tutto il codice autonomamente. Nonostante le capacità in rapido miglioramento, gli agenti di codifica rimangono inefficienti in contesti naturali. Solo il 44% di tutto il codice prodotto dall'agente sopravvive fino ai commit dell'utente, e il codice scritto dall'agente introduce più vulnerabilità di sicurezza rispetto al codice scritto da umani. Inoltre, gli utenti respingono gli output dell'agente – tramite correzioni, segnalazioni di fallimento e interruzioni – nel 44% di tutti i turni. Catturando tracce di interazione complete con l'attribuzione della paternità del codice (umana vs. agente), SWE-chat fornisce una base empirica per andare oltre i benchmark curati verso una comprensione basata sull'evidenza di come gli agenti IA performano nei flussi di lavoro reali degli sviluppatori.

English

AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.

SWE-chat: Interazioni con Agenti di Codifica da Utenti Reali in Ambiente Non Controllato

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Abstract

Support