SWE-QA: I Modelli Linguistici Possono Rispondere a Domande sul Codice a Livello di Repository?

Abstract

Comprendere e ragionare su interi repository software è una capacità essenziale per strumenti di ingegneria del software intelligenti. Sebbene benchmark esistenti come CoSQA e CodeQA abbiano fatto progredire il campo, si concentrano prevalentemente su piccoli frammenti di codice autosufficienti. Queste configurazioni non riescono a catturare la complessità dei repository del mondo reale, dove una comprensione e un ragionamento efficaci spesso richiedono la navigazione tra più file, la comprensione dell'architettura software e l'ancoraggio delle risposte a dipendenze di codice a lungo raggio. In questo articolo, presentiamo SWE-QA, un benchmark di risposta alle domande (QA) a livello di repository progettato per facilitare la ricerca su sistemi QA automatizzati in ambienti di codice realistici. SWE-QA comprende 576 coppie domanda-risposta di alta qualità che abbracciano diverse categorie, tra cui la comprensione delle intenzioni, il ragionamento tra file e l'analisi delle dipendenze multi-hop. Per costruire SWE-QA, abbiamo prima raccolto 77.100 issue da 11 repository popolari su GitHub. Sulla base di un'analisi delle domande naturalmente poste dagli sviluppatori estratte da queste issue, abbiamo sviluppato una tassonomia a due livelli per le domande a livello di repository e costruito un insieme di domande iniziali per ciascuna categoria. Per ogni categoria, abbiamo curato e validato manualmente le domande e raccolto le risposte corrispondenti. Come applicazione prototipo, abbiamo ulteriormente sviluppato SWE-QA-Agent, un framework agentico in cui gli agenti LLM ragionano e agiscono per trovare risposte automaticamente. Valutiamo sei LLM avanzati su SWE-QA utilizzando varie strategie di arricchimento del contesto. I risultati sperimentali evidenziano il potenziale degli LLM, in particolare del nostro framework SWE-QA-Agent, nell'affrontare QA a livello di repository, rivelando al contempo sfide aperte e indicando direzioni future per la ricerca.

English

Understanding and reasoning about entire software repositories is an essential capability for intelligent software engineering tools. While existing benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly focus on small, self-contained code snippets. These setups fail to capture the complexity of real-world repositories, where effective understanding and reasoning often require navigating multiple files, understanding software architecture, and grounding answers in long-range code dependencies. In this paper, we present SWE-QA, a repository-level code question answering (QA) benchmark designed to facilitate research on automated QA systems in realistic code environments. SWE-QA involves 576 high-quality question-answer pairs spanning diverse categories, including intention understanding, cross-file reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis of naturally occurring developer questions extracted from these issues, we developed a two-level taxonomy of repository-level questions and constructed a set of seed questions for each category. For each category, we manually curated and validated questions and collected their corresponding answers. As a prototype application, we further develop SWE-QA-Agent, an agentic framework in which LLM agents reason and act to find answers automatically. We evaluate six advanced LLMs on SWE-QA under various context augmentation strategies. Experimental results highlight the promise of LLMs, particularly our SWE-QA-Agent framework, in addressing repository-level QA, while also revealing open challenges and pointing to future research directions.

SWE-QA: I Modelli Linguistici Possono Rispondere a Domande sul Codice a Livello di Repository?

SWE-QA: Can Language Models Answer Repository-level Code Questions?

Abstract

Support