SWE-chat: Взаимодействия с кодирующими агентами от реальных пользователей в естественной среде

Аннотация

Интеллектуальные агенты для программирования внедряются массово, однако у нас отсутствуют эмпирические данные о том, как люди фактически их используют и насколько полезны их результаты на практике. Мы представляем SWE-chat — первый крупномасштабный набор данных о реальных сессиях работы с кодогенерирующими агентами, собранный от разработчиков открытого ПО в естественных условиях. На текущий момент набор данных содержит 6000 сессий, включающих более 63 000 пользовательских промптов и 355 000 вызовов инструментов агента. SWE-chat является живым набором данных; наш конвейер сбора автоматически и непрерывно обнаруживает и обрабатывает сессии из публичных репозиториев. Используя SWE-chat, мы предоставляем первоначальную эмпирическую характеристику использования кодогенерирующих агентов в реальных условиях и их типичных ошибок. Мы обнаружили, что паттерны программирования бимодальны: в 41% сессий агенты создают практически весь закоммиченный код («вейв-кодинг»), тогда как в 23% случаев весь код пишут сами люди. Несмотря на быстро растущие возможности, кодогенерирующие агенты остаются неэффективными в естественных условиях. Лишь 44% всего кода, произведенного агентами, попадает в пользовательские коммиты, а код, написанный агентами, содержит больше уязвимостей безопасности по сравнению с кодом, созданным человеком. Кроме того, пользователи отвергают вывод агентов — посредством исправлений, сообщений об ошибках и прерываний — в 44% всех взаимодействий. Благодаря фиксации полных трассировок взаимодействий с атрибуцией авторства кода (человек vs. агент), SWE-chat предоставляет эмпирическую основу для перехода от курируемых бенчмарков к доказательному пониманию того, как ИИ-агенты функционируют в реальных рабочих процессах разработчиков.

English

AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.

SWE-chat: Взаимодействия с кодирующими агентами от реальных пользователей в естественной среде

SWE-chat: Coding Agent Interactions From Real Users in the Wild

Аннотация

Support