AIDev: Estudo de Agentes de Codificação de IA no GitHub
AIDev: Studying AI Coding Agents on GitHub
February 9, 2026
Autores: Hao Li, Haoxiang Zhang, Ahmed E. Hassan
cs.AI
Resumo
Os agentes de IA para programação estão a transformar rapidamente a engenharia de software ao realizar tarefas como desenvolvimento de funcionalidades, depuração e testes. Apesar do seu impacto crescente, a comunidade de pesquisa carece de um conjunto de dados abrangente que capture como estes agentes são utilizados em projetos do mundo real. Para colmatar esta lacuna, apresentamos o AIDev, um conjunto de dados em larga escala focado em *pull requests* (PRs) escritos por agentes (Agentic-PRs) em repositórios reais do GitHub. O AIDev agrega 932.791 Agentic-PRs produzidos por cinco agentes: OpenAI Codex, Devin, GitHub Copilot, Cursor e Claude Code. Estes PRs abrangem 116.211 repositórios e envolvem 72.189 programadores. Adicionalmente, o AIDev inclui um subconjunto curado de 33.596 Agentic-PRs de 2.807 repositórios com mais de 100 estrelas, fornecendo informações adicionais como comentários, revisões, *commits* e *issues* relacionadas. Este conjunto de dados oferece uma base para pesquisas futuras sobre a adoção de IA, produtividade do programador e colaboração humano-IA na nova era da engenharia de software.
> Agente de IA, IA Agéntica, Agente de Programação, Programação Agéntica, Engenharia de Software Agéntica, Engenharia Agéntica
English
AI coding agents are rapidly transforming software engineering by performing tasks such as feature development, debugging, and testing. Despite their growing impact, the research community lacks a comprehensive dataset capturing how these agents are used in real-world projects. To address this gap, we introduce AIDev, a large-scale dataset focused on agent-authored pull requests (Agentic-PRs) in real-world GitHub repositories. AIDev aggregates 932,791 Agentic-PRs produced by five agents: OpenAI Codex, Devin, GitHub Copilot, Cursor, and Claude Code. These PRs span 116,211 repositories and involve 72,189 developers. In addition, AIDev includes a curated subset of 33,596 Agentic-PRs from 2,807 repositories with over 100 stars, providing further information such as comments, reviews, commits, and related issues. This dataset offers a foundation for future research on AI adoption, developer productivity, and human-AI collaboration in the new era of software engineering.
> AI Agent, Agentic AI, Coding Agent, Agentic Coding, Agentic Software Engineering, Agentic Engineering