SweRank: Localizzazione dei Problemi Software con Classificazione del Codice
SweRank: Software Issue Localization with Code Ranking
May 7, 2025
Autori: Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty
cs.AI
Abstract
La localizzazione dei problemi software, ovvero il compito di identificare le precise posizioni del codice (file, classi o funzioni) rilevanti per una descrizione di un problema in linguaggio naturale (ad esempio, segnalazione di bug, richiesta di funzionalità), è un aspetto cruciale ma dispendioso in termini di tempo nello sviluppo del software. Sebbene i recenti approcci agentivi basati su LLM mostrino promettenti risultati, spesso comportano una latenza e un costo significativi a causa di complessi ragionamenti multi-step e del ricorso a LLM proprietari. D'altra parte, i tradizionali modelli di ranking del codice, tipicamente ottimizzati per il recupero query-to-code o code-to-code, faticano a gestire la natura verbosa e descrittiva degli errori delle query di localizzazione dei problemi. Per colmare questa lacuna, introduciamo SweRank, un framework efficiente ed efficace di recupero e riordinamento per la localizzazione dei problemi software. Per facilitare l'addestramento, abbiamo costruito SweLoc, un dataset su larga scala curato da repository pubblici di GitHub, che presenta descrizioni di problemi reali accoppiate con le corrispondenti modifiche al codice. I risultati empirici su SWE-Bench-Lite e LocBench dimostrano che SweRank raggiunge prestazioni all'avanguardia, superando sia i precedenti modelli di ranking che i costosi sistemi basati su agenti che utilizzano LLM proprietari come Claude-3.5. Inoltre, dimostriamo l'utilità di SweLoc nel migliorare vari modelli esistenti di recupero e riordinamento per la localizzazione dei problemi, stabilendo il dataset come una risorsa preziosa per la comunità.
English
Software issue localization, the task of identifying the precise code
locations (files, classes, or functions) relevant to a natural language issue
description (e.g., bug report, feature request), is a critical yet
time-consuming aspect of software development. While recent LLM-based agentic
approaches demonstrate promise, they often incur significant latency and cost
due to complex multi-step reasoning and relying on closed-source LLMs.
Alternatively, traditional code ranking models, typically optimized for
query-to-code or code-to-code retrieval, struggle with the verbose and
failure-descriptive nature of issue localization queries. To bridge this gap,
we introduce SweRank, an efficient and effective retrieve-and-rerank framework
for software issue localization. To facilitate training, we construct SweLoc, a
large-scale dataset curated from public GitHub repositories, featuring
real-world issue descriptions paired with corresponding code modifications.
Empirical results on SWE-Bench-Lite and LocBench show that SweRank achieves
state-of-the-art performance, outperforming both prior ranking models and
costly agent-based systems using closed-source LLMs like Claude-3.5. Further,
we demonstrate SweLoc's utility in enhancing various existing retriever and
reranker models for issue localization, establishing the dataset as a valuable
resource for the community.