ChatPaper.aiChatPaper

SWE-QA : Les modèles de langage peuvent-ils répondre à des questions sur le code au niveau d'un dépôt ?

SWE-QA: Can Language Models Answer Repository-level Code Questions?

September 18, 2025
papers.authors: Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu
cs.AI

papers.abstract

Comprendre et raisonner sur des dépôts de logiciels entiers est une capacité essentielle pour les outils d'ingénierie logicielle intelligents. Bien que les benchmarks existants tels que CoSQA et CodeQA aient fait progresser le domaine, ils se concentrent principalement sur de petits extraits de code autonomes. Ces configurations ne parviennent pas à capturer la complexité des dépôts réels, où une compréhension et un raisonnement efficaces nécessitent souvent de naviguer entre plusieurs fichiers, de comprendre l'architecture logicielle et de fonder les réponses sur des dépendances de code à long terme. Dans cet article, nous présentons SWE-QA, un benchmark de question-réponse (QA) au niveau des dépôts conçu pour faciliter la recherche sur les systèmes de QA automatisés dans des environnements de code réalistes. SWE-QA comprend 576 paires de questions-réponses de haute qualité couvrant diverses catégories, notamment la compréhension des intentions, le raisonnement inter-fichiers et l'analyse de dépendances multi-sauts. Pour construire SWE-QA, nous avons d'abord extrait 77 100 issues GitHub provenant de 11 dépôts populaires. Sur la base d'une analyse des questions naturelles posées par les développeurs et extraites de ces issues, nous avons développé une taxonomie à deux niveaux des questions au niveau des dépôts et construit un ensemble de questions initiales pour chaque catégorie. Pour chaque catégorie, nous avons soigneusement sélectionné et validé les questions et collecté leurs réponses correspondantes. Comme application prototype, nous avons également développé SWE-QA-Agent, un framework agentique dans lequel des agents LLM raisonnent et agissent pour trouver des réponses automatiquement. Nous évaluons six LLM avancés sur SWE-QA sous diverses stratégies d'augmentation de contexte. Les résultats expérimentaux mettent en évidence le potentiel des LLM, en particulier notre framework SWE-QA-Agent, pour répondre aux questions au niveau des dépôts, tout en révélant des défis ouverts et en pointant vers des directions de recherche futures.
English
Understanding and reasoning about entire software repositories is an essential capability for intelligent software engineering tools. While existing benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly focus on small, self-contained code snippets. These setups fail to capture the complexity of real-world repositories, where effective understanding and reasoning often require navigating multiple files, understanding software architecture, and grounding answers in long-range code dependencies. In this paper, we present SWE-QA, a repository-level code question answering (QA) benchmark designed to facilitate research on automated QA systems in realistic code environments. SWE-QA involves 576 high-quality question-answer pairs spanning diverse categories, including intention understanding, cross-file reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis of naturally occurring developer questions extracted from these issues, we developed a two-level taxonomy of repository-level questions and constructed a set of seed questions for each category. For each category, we manually curated and validated questions and collected their corresponding answers. As a prototype application, we further develop SWE-QA-Agent, an agentic framework in which LLM agents reason and act to find answers automatically. We evaluate six advanced LLMs on SWE-QA under various context augmentation strategies. Experimental results highlight the promise of LLMs, particularly our SWE-QA-Agent framework, in addressing repository-level QA, while also revealing open challenges and pointing to future research directions.
PDF342September 25, 2025