AIDev: Estudio de agentes de codificación con IA en GitHub
AIDev: Studying AI Coding Agents on GitHub
February 9, 2026
Autores: Hao Li, Haoxiang Zhang, Ahmed E. Hassan
cs.AI
Resumen
Los agentes de IA para programación están transformando rápidamente la ingeniería de software al realizar tareas como el desarrollo de funciones, la depuración y las pruebas. A pesar de su creciente impacto, la comunidad investigadora carece de un conjunto de datos integral que capture cómo se utilizan estos agentes en proyectos del mundo real. Para abordar esta brecha, presentamos AIDev, un conjunto de datos a gran escala centrado en las solicitudes de extracción (pull requests) escritas por agentes (Agentic-PRs) en repositorios reales de GitHub. AIDev agrega 932,791 Agentic-PRs producidas por cinco agentes: OpenAI Codex, Devin, GitHub Copilot, Cursor y Claude Code. Estas PRs abarcan 116,211 repositorios y involucran a 72,189 desarrolladores. Además, AIDev incluye un subconjunto seleccionado de 33,596 Agentic-PRs de 2,807 repositorios con más de 100 estrellas, proporcionando información adicional como comentarios, revisiones, commits e incidencias relacionadas. Este conjunto de datos ofrece una base para futuras investigaciones sobre la adopción de la IA, la productividad de los desarrolladores y la colaboración humano-IA en la nueva era de la ingeniería de software.
> Agente de IA, IA Agéntica, Agente de Programación, Programación Agéntica, Ingeniería de Software Agéntica, Ingeniería Agéntica
English
AI coding agents are rapidly transforming software engineering by performing tasks such as feature development, debugging, and testing. Despite their growing impact, the research community lacks a comprehensive dataset capturing how these agents are used in real-world projects. To address this gap, we introduce AIDev, a large-scale dataset focused on agent-authored pull requests (Agentic-PRs) in real-world GitHub repositories. AIDev aggregates 932,791 Agentic-PRs produced by five agents: OpenAI Codex, Devin, GitHub Copilot, Cursor, and Claude Code. These PRs span 116,211 repositories and involve 72,189 developers. In addition, AIDev includes a curated subset of 33,596 Agentic-PRs from 2,807 repositories with over 100 stars, providing further information such as comments, reviews, commits, and related issues. This dataset offers a foundation for future research on AI adoption, developer productivity, and human-AI collaboration in the new era of software engineering.
> AI Agent, Agentic AI, Coding Agent, Agentic Coding, Agentic Software Engineering, Agentic Engineering