SWE-QA: ¿Pueden los modelos de lenguaje responder preguntas de código a nivel de repositorio?

Resumen

Comprender y razonar sobre repositorios de software completos es una capacidad esencial para las herramientas de ingeniería de software inteligente. Si bien los puntos de referencia existentes, como CoSQA y CodeQA, han avanzado en el campo, se centran predominantemente en fragmentos de código pequeños y autónomos. Estas configuraciones no capturan la complejidad de los repositorios del mundo real, donde la comprensión y el razonamiento efectivos a menudo requieren navegar por múltiples archivos, entender la arquitectura del software y fundamentar las respuestas en dependencias de código de largo alcance. En este artículo, presentamos SWE-QA, un punto de referencia de respuesta a preguntas (QA) a nivel de repositorio diseñado para facilitar la investigación sobre sistemas automatizados de QA en entornos de código realistas. SWE-QA incluye 576 pares de preguntas y respuestas de alta calidad que abarcan diversas categorías, como la comprensión de intenciones, el razonamiento entre archivos y el análisis de dependencias de múltiples saltos. Para construir SWE-QA, primero rastreamos 77,100 issues de GitHub de 11 repositorios populares. Basándonos en un análisis de las preguntas de desarrolladores que ocurren naturalmente extraídas de estos issues, desarrollamos una taxonomía de dos niveles para preguntas a nivel de repositorio y construimos un conjunto de preguntas iniciales para cada categoría. Para cada categoría, curamos y validamos manualmente las preguntas y recopilamos sus respuestas correspondientes. Como aplicación prototipo, desarrollamos SWE-QA-Agent, un marco agéntico en el que los agentes de LLM razonan y actúan para encontrar respuestas automáticamente. Evaluamos seis LLM avanzados en SWE-QA bajo diversas estrategias de aumento de contexto. Los resultados experimentales destacan el potencial de los LLM, particularmente nuestro marco SWE-QA-Agent, para abordar QA a nivel de repositorio, al mismo tiempo que revelan desafíos abiertos y señalan direcciones futuras de investigación.

English

Understanding and reasoning about entire software repositories is an essential capability for intelligent software engineering tools. While existing benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly focus on small, self-contained code snippets. These setups fail to capture the complexity of real-world repositories, where effective understanding and reasoning often require navigating multiple files, understanding software architecture, and grounding answers in long-range code dependencies. In this paper, we present SWE-QA, a repository-level code question answering (QA) benchmark designed to facilitate research on automated QA systems in realistic code environments. SWE-QA involves 576 high-quality question-answer pairs spanning diverse categories, including intention understanding, cross-file reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis of naturally occurring developer questions extracted from these issues, we developed a two-level taxonomy of repository-level questions and constructed a set of seed questions for each category. For each category, we manually curated and validated questions and collected their corresponding answers. As a prototype application, we further develop SWE-QA-Agent, an agentic framework in which LLM agents reason and act to find answers automatically. We evaluate six advanced LLMs on SWE-QA under various context augmentation strategies. Experimental results highlight the promise of LLMs, particularly our SWE-QA-Agent framework, in addressing repository-level QA, while also revealing open challenges and pointing to future research directions.

SWE-QA: ¿Pueden los modelos de lenguaje responder preguntas de código a nivel de repositorio?

SWE-QA: Can Language Models Answer Repository-level Code Questions?

Resumen

Support