SWE-chat : Interactions d'Agents de Codage Provenant d'Utilisateurs Réels en Conditions Réelles

Résumé

Les assistants de programmation IA sont déployés à grande échelle, mais nous manquons de preuves empiriques sur leur utilisation réelle et sur l'utilité pratique de leurs productions. Nous présentons SWE-chat, la première base de données à grande échelle de sessions réelles d'agents de programmation collectées auprès de développeurs open-source en conditions réelles. Cette base contient actuellement 6 000 sessions, comprenant plus de 63 000 requêtes utilisateur et 355 000 appels d'outils par l'agent. SWE-chat est une base dynamique ; notre pipeline de collecte découvre et traite automatiquement et continuellement des sessions provenant de dépôts publics. En exploitant SWE-chat, nous fournissons une première caractérisation empirique de l'utilisation réelle des agents de programmation et de leurs modes d'échec. Nous constatons que les schémas de programmation sont bimodaux : dans 41 % des sessions, les agents génèrent la quasi-totalité du code validé ("programmation intuitive"), tandis que dans 23 % des cas, les humains écrivent eux-mêmes tout le code. Malgré des capacités en amélioration rapide, les agents de programmation restent inefficaces en conditions naturelles. Seulement 44 % du code produit par l'agent est conservé dans les validations utilisateur, et le code généré par l'agent introduit plus de vulnérabilités de sécurité que le code écrit par des humains. De plus, les utilisateurs rejettent les productions de l'agent - par des corrections, des rapports d'échec ou des interruptions - dans 44 % de toutes les interactions. En capturant des traces complètes d'interaction avec attribution de la paternité du code (humain vs agent), SWE-chat fournit une base empirique pour dépasser les benchmarks artificiels vers une compréhension factuelle des performances des agents IA dans les workflows réels de développement.

English

AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.

SWE-chat : Interactions d'Agents de Codage Provenant d'Utilisateurs Réels en Conditions Réelles

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Résumé

Support