SWE-QA: Können Sprachmodelle Repository-weite Code-Fragen beantworten?
SWE-QA: Can Language Models Answer Repository-level Code Questions?
September 18, 2025
papers.authors: Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu
cs.AI
papers.abstract
Das Verständnis und die Analyse ganzer Software-Repositorys ist eine wesentliche Fähigkeit für intelligente Softwareentwicklungswerkzeuge. Während bestehende Benchmarks wie CoSQA und CodeQA das Feld vorangebracht haben, konzentrieren sie sich überwiegend auf kleine, eigenständige Codeausschnitte. Diese Ansätze erfassen nicht die Komplexität realer Repositorys, bei denen effektives Verständnis und Analyse oft das Navigieren durch mehrere Dateien, das Verstehen der Softwarearchitektur und die Verankerung von Antworten in langreichweitigen Codeabhängigkeiten erfordern. In diesem Artikel stellen wir SWE-QA vor, einen Repository-Level-Code-Frage-Antwort (QA)-Benchmark, der die Forschung an automatisierten QA-Systemen in realistischen Codeumgebungen fördern soll. SWE-QA umfasst 576 hochwertige Frage-Antwort-Paare, die verschiedene Kategorien abdecken, darunter Intention-Verständnis, dateiübergreifende Analyse und mehrstufige Abhängigkeitsanalyse. Um SWE-QA zu erstellen, haben wir zunächst 77.100 GitHub-Issues aus 11 beliebten Repositorys gesammelt. Basierend auf einer Analyse natürlich auftretender Entwicklerfragen, die aus diesen Issues extrahiert wurden, entwickelten wir eine zweistufige Taxonomie von Repository-Level-Fragen und erstellten für jede Kategorie eine Reihe von Ausgangsfragen. Für jede Kategorie haben wir Fragen manuell kuratiert und validiert sowie die entsprechenden Antworten gesammelt. Als Prototypanwendung entwickeln wir weiterhin SWE-QA-Agent, ein agentenbasiertes Framework, in dem LLM-Agenten automatisch Antworten durch logisches Denken und Handeln finden. Wir evaluieren sechs fortschrittliche LLMs auf SWE-QA unter verschiedenen Kontextverstärkungsstrategien. Die experimentellen Ergebnisse unterstreichen das Potenzial von LLMs, insbesondere unseres SWE-QA-Agent-Frameworks, bei der Bewältigung von Repository-Level-QA, zeigen aber auch offene Herausforderungen auf und weisen auf zukünftige Forschungsrichtungen hin.
English
Understanding and reasoning about entire software repositories is an
essential capability for intelligent software engineering tools. While existing
benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly
focus on small, self-contained code snippets. These setups fail to capture the
complexity of real-world repositories, where effective understanding and
reasoning often require navigating multiple files, understanding software
architecture, and grounding answers in long-range code dependencies. In this
paper, we present SWE-QA, a repository-level code question answering (QA)
benchmark designed to facilitate research on automated QA systems in realistic
code environments. SWE-QA involves 576 high-quality question-answer pairs
spanning diverse categories, including intention understanding, cross-file
reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first
crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis
of naturally occurring developer questions extracted from these issues, we
developed a two-level taxonomy of repository-level questions and constructed a
set of seed questions for each category. For each category, we manually curated
and validated questions and collected their corresponding answers. As a
prototype application, we further develop SWE-QA-Agent, an agentic framework in
which LLM agents reason and act to find answers automatically. We evaluate six
advanced LLMs on SWE-QA under various context augmentation strategies.
Experimental results highlight the promise of LLMs, particularly our
SWE-QA-Agent framework, in addressing repository-level QA, while also revealing
open challenges and pointing to future research directions.