SweRank: Softwareprobleemlokalisatie met Coderanking
SweRank: Software Issue Localization with Code Ranking
May 7, 2025
Auteurs: Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty
cs.AI
Samenvatting
Software issue localisatie, de taak om de precieze codelocaties (bestanden, klassen of functies) te identificeren die relevant zijn voor een beschrijving van een probleem in natuurlijke taal (bijvoorbeeld een bugrapport of functieverzoek), is een cruciaal maar tijdrovend aspect van softwareontwikkeling. Hoewel recente LLM-gebaseerde agent-benaderingen veelbelovend zijn, brengen ze vaak aanzienlijke latentie en kosten met zich mee vanwege complexe meerstapsredenering en het vertrouwen op closed-source LLM's. Traditionele code-rankingmodellen, die doorgaans zijn geoptimaliseerd voor query-naar-code of code-naar-code retrieval, hebben moeite met de uitgebreide en foutbeschrijvende aard van localisatiequery's voor problemen. Om deze kloof te overbruggen, introduceren we SweRank, een efficiënt en effectief retrieve-and-rerank-framework voor software issue localisatie. Om training te vergemakkelijken, hebben we SweLoc geconstrueerd, een grootschalige dataset samengesteld uit openbare GitHub-repositories, met real-world probleembeschrijvingen gekoppeld aan bijbehorende codewijzigingen. Empirische resultaten op SWE-Bench-Lite en LocBench laten zien dat SweRank state-of-the-art prestaties bereikt, en zowel eerdere rankingmodellen als kostbare agent-gebaseerde systemen die gebruikmaken van closed-source LLM's zoals Claude-3.5 overtreft. Verder demonstreren we de nuttigheid van SweLoc bij het verbeteren van verschillende bestaande retriever- en reranker-modellen voor issue localisatie, waarmee we de dataset vestigen als een waardevolle bron voor de gemeenschap.
English
Software issue localization, the task of identifying the precise code
locations (files, classes, or functions) relevant to a natural language issue
description (e.g., bug report, feature request), is a critical yet
time-consuming aspect of software development. While recent LLM-based agentic
approaches demonstrate promise, they often incur significant latency and cost
due to complex multi-step reasoning and relying on closed-source LLMs.
Alternatively, traditional code ranking models, typically optimized for
query-to-code or code-to-code retrieval, struggle with the verbose and
failure-descriptive nature of issue localization queries. To bridge this gap,
we introduce SweRank, an efficient and effective retrieve-and-rerank framework
for software issue localization. To facilitate training, we construct SweLoc, a
large-scale dataset curated from public GitHub repositories, featuring
real-world issue descriptions paired with corresponding code modifications.
Empirical results on SWE-Bench-Lite and LocBench show that SweRank achieves
state-of-the-art performance, outperforming both prior ranking models and
costly agent-based systems using closed-source LLMs like Claude-3.5. Further,
we demonstrate SweLoc's utility in enhancing various existing retriever and
reranker models for issue localization, establishing the dataset as a valuable
resource for the community.Summary
AI-Generated Summary