SweRank : Localisation des problèmes logiciels par classement de code
SweRank: Software Issue Localization with Code Ranking
May 7, 2025
Auteurs: Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty
cs.AI
Résumé
La localisation des problèmes logiciels, qui consiste à identifier les emplacements précis du code (fichiers, classes ou fonctions) pertinents pour une description en langage naturel d'un problème (par exemple, un rapport de bug ou une demande de fonctionnalité), est un aspect crucial mais chronophage du développement logiciel. Bien que les approches récentes basées sur des modèles de langage (LLM) montrent des résultats prometteurs, elles entraînent souvent une latence et un coût significatifs en raison de leur raisonnement multi-étapes complexe et de leur dépendance à des LLM propriétaires. Par ailleurs, les modèles traditionnels de classement de code, généralement optimisés pour la recherche requête-vers-code ou code-vers-code, peinent à gérer la nature verbale et descriptive des échecs des requêtes de localisation de problèmes. Pour combler cette lacune, nous présentons SweRank, un cadre de récupération et reclassement efficace pour la localisation des problèmes logiciels. Pour faciliter l'entraînement, nous avons construit SweLoc, un jeu de données à grande échelle extrait de dépôts GitHub publics, comprenant des descriptions de problèmes réels associées aux modifications de code correspondantes. Les résultats empiriques sur SWE-Bench-Lite et LocBench montrent que SweRank atteint des performances de pointe, surpassant à la fois les modèles de classement précédents et les systèmes coûteux basés sur des agents utilisant des LLM propriétaires comme Claude-3.5. De plus, nous démontrons l'utilité de SweLoc pour améliorer divers modèles de récupération et reclassement existants pour la localisation de problèmes, établissant ainsi ce jeu de données comme une ressource précieuse pour la communauté.
English
Software issue localization, the task of identifying the precise code
locations (files, classes, or functions) relevant to a natural language issue
description (e.g., bug report, feature request), is a critical yet
time-consuming aspect of software development. While recent LLM-based agentic
approaches demonstrate promise, they often incur significant latency and cost
due to complex multi-step reasoning and relying on closed-source LLMs.
Alternatively, traditional code ranking models, typically optimized for
query-to-code or code-to-code retrieval, struggle with the verbose and
failure-descriptive nature of issue localization queries. To bridge this gap,
we introduce SweRank, an efficient and effective retrieve-and-rerank framework
for software issue localization. To facilitate training, we construct SweLoc, a
large-scale dataset curated from public GitHub repositories, featuring
real-world issue descriptions paired with corresponding code modifications.
Empirical results on SWE-Bench-Lite and LocBench show that SweRank achieves
state-of-the-art performance, outperforming both prior ranking models and
costly agent-based systems using closed-source LLMs like Claude-3.5. Further,
we demonstrate SweLoc's utility in enhancing various existing retriever and
reranker models for issue localization, establishing the dataset as a valuable
resource for the community.Summary
AI-Generated Summary