SWE-QA: Kunnen Taalmodellen Repository-niveau Codevragen Beantwoorden?

Samenvatting

Het begrijpen en redeneren over volledige software repositories is een essentiële vaardigheid voor intelligente software-engineeringtools. Hoewel bestaande benchmarks zoals CoSQA en CodeQA het vakgebied hebben vooruitgebracht, richten deze zich voornamelijk op kleine, zelfstandige codefragmenten. Deze opzet slaagt er niet in de complexiteit van real-world repositories te vangen, waar effectief begrip en redeneren vaak vereisen dat men meerdere bestanden doorloopt, de softwarearchitectuur begrijpt en antwoorden verankert in langere codeafhankelijkheden. In dit artikel presenteren we SWE-QA, een repository-level code question answering (QA)-benchmark die is ontworpen om onderzoek naar geautomatiseerde QA-systemen in realistische code-omgevingen te faciliteren. SWE-QA omvat 576 hoogwaardige vraag-antwoordparen die diverse categorieën bestrijken, waaronder intentiebegrip, cross-file redenering en multi-hop afhankelijkheidsanalyse. Om SWE-QA te construeren, hebben we eerst 77.100 GitHub-issues uit 11 populaire repositories gecrawld. Op basis van een analyse van natuurlijk voorkomende ontwikkelaarsvragen die uit deze issues zijn geëxtraheerd, hebben we een tweedelige taxonomie van repository-level vragen ontwikkeld en een set startvragen voor elke categorie opgesteld. Voor elke categorie hebben we vragen handmatig samengesteld en gevalideerd en de bijbehorende antwoorden verzameld. Als prototypeapplicatie ontwikkelen we verder SWE-QA-Agent, een agentisch framework waarin LLM-agents redeneren en handelen om automatisch antwoorden te vinden. We evalueren zes geavanceerde LLM's op SWE-QA onder verschillende contextaugmentatiestrategieën. Experimentele resultaten benadrukken de belofte van LLM's, met name ons SWE-QA-Agent-framework, bij het aanpakken van repository-level QA, terwijl ze ook openstaande uitdagingen blootleggen en toekomstige onderzoeksrichtingen aanwijzen.

English

Understanding and reasoning about entire software repositories is an essential capability for intelligent software engineering tools. While existing benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly focus on small, self-contained code snippets. These setups fail to capture the complexity of real-world repositories, where effective understanding and reasoning often require navigating multiple files, understanding software architecture, and grounding answers in long-range code dependencies. In this paper, we present SWE-QA, a repository-level code question answering (QA) benchmark designed to facilitate research on automated QA systems in realistic code environments. SWE-QA involves 576 high-quality question-answer pairs spanning diverse categories, including intention understanding, cross-file reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis of naturally occurring developer questions extracted from these issues, we developed a two-level taxonomy of repository-level questions and constructed a set of seed questions for each category. For each category, we manually curated and validated questions and collected their corresponding answers. As a prototype application, we further develop SWE-QA-Agent, an agentic framework in which LLM agents reason and act to find answers automatically. We evaluate six advanced LLMs on SWE-QA under various context augmentation strategies. Experimental results highlight the promise of LLMs, particularly our SWE-QA-Agent framework, in addressing repository-level QA, while also revealing open challenges and pointing to future research directions.

SWE-QA: Kunnen Taalmodellen Repository-niveau Codevragen Beantwoorden?

SWE-QA: Can Language Models Answer Repository-level Code Questions?

Samenvatting

Support