SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau d'un dépôt ?
SWE-QA: Can Language Models Answer Repository-level Code Questions?
September 18, 2025
papers.authors: Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu
cs.AI
papers.abstract
Comprendre et raisonner sur des dépôts de logiciels entiers est une capacité essentielle pour les outils d'ingénierie logicielle intelligents. Bien que les benchmarks existants tels que CoSQA et CodeQA aient fait progresser le domaine, ils se concentrent principalement sur de petits extraits de code autonomes. Ces configurations ne parviennent pas à capturer la complexité des dépôts réels, où une compréhension et un raisonnement efficaces nécessitent souvent de naviguer entre plusieurs fichiers, de comprendre l'architecture logicielle et de fonder les réponses sur des dépendances de code à long terme. Dans cet article, nous présentons SWE-QA, un benchmark de question-réponse (QA) au niveau des dépôts conçu pour faciliter la recherche sur les systèmes de QA automatisés dans des environnements de code réalistes. SWE-QA comprend 576 paires de questions-réponses de haute qualité couvrant diverses catégories, notamment la compréhension des intentions, le raisonnement inter-fichiers et l'analyse de dépendances multi-sauts. Pour construire SWE-QA, nous avons d'abord extrait 77 100 issues GitHub provenant de 11 dépôts populaires. Sur la base d'une analyse des questions naturelles posées par les développeurs et extraites de ces issues, nous avons développé une taxonomie à deux niveaux des questions au niveau des dépôts et construit un ensemble de questions initiales pour chaque catégorie. Pour chaque catégorie, nous avons soigneusement sélectionné et validé les questions et collecté leurs réponses correspondantes. Comme application prototype, nous avons également développé SWE-QA-Agent, un framework agentique dans lequel des agents LLM raisonnent et agissent pour trouver des réponses automatiquement. Nous évaluons six LLM avancés sur SWE-QA sous diverses stratégies d'augmentation de contexte. Les résultats expérimentaux mettent en évidence le potentiel des LLM, en particulier notre framework SWE-QA-Agent, pour répondre aux questions au niveau des dépôts, tout en révélant des défis ouverts et en pointant vers des directions de recherche futures.
English
Understanding and reasoning about entire software repositories is an
essential capability for intelligent software engineering tools. While existing
benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly
focus on small, self-contained code snippets. These setups fail to capture the
complexity of real-world repositories, where effective understanding and
reasoning often require navigating multiple files, understanding software
architecture, and grounding answers in long-range code dependencies. In this
paper, we present SWE-QA, a repository-level code question answering (QA)
benchmark designed to facilitate research on automated QA systems in realistic
code environments. SWE-QA involves 576 high-quality question-answer pairs
spanning diverse categories, including intention understanding, cross-file
reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first
crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis
of naturally occurring developer questions extracted from these issues, we
developed a two-level taxonomy of repository-level questions and constructed a
set of seed questions for each category. For each category, we manually curated
and validated questions and collected their corresponding answers. As a
prototype application, we further develop SWE-QA-Agent, an agentic framework in
which LLM agents reason and act to find answers automatically. We evaluate six
advanced LLMs on SWE-QA under various context augmentation strategies.
Experimental results highlight the promise of LLMs, particularly our
SWE-QA-Agent framework, in addressing repository-level QA, while also revealing
open challenges and pointing to future research directions.