SweRank: Localización de Problemas en Software con Clasificación de Código
SweRank: Software Issue Localization with Code Ranking
May 7, 2025
Autores: Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty
cs.AI
Resumen
La localización de problemas de software, la tarea de identificar las ubicaciones precisas del código (archivos, clases o funciones) relevantes para una descripción de problema en lenguaje natural (por ejemplo, informe de errores, solicitud de funcionalidad), es un aspecto crítico pero que consume mucho tiempo en el desarrollo de software. Si bien los enfoques agentes recientes basados en LLM (Modelos de Lenguaje de Gran Escala) muestran promesas, a menudo incurren en una latencia y un costo significativos debido a razonamientos complejos de múltiples pasos y a la dependencia de LLM de código cerrado. Por otro lado, los modelos tradicionales de clasificación de código, típicamente optimizados para la recuperación de consulta a código o de código a código, tienen dificultades con la naturaleza verbosa y descriptiva de fallos de las consultas de localización de problemas. Para cerrar esta brecha, presentamos SweRank, un marco eficiente y efectivo de recuperación y reclasificación para la localización de problemas de software. Para facilitar el entrenamiento, construimos SweLoc, un conjunto de datos a gran escala curado a partir de repositorios públicos de GitHub, que incluye descripciones de problemas del mundo real emparejadas con las modificaciones de código correspondientes. Los resultados empíricos en SWE-Bench-Lite y LocBench muestran que SweRank alcanza un rendimiento de vanguardia, superando tanto a modelos de clasificación previos como a sistemas costosos basados en agentes que utilizan LLM de código cerrado como Claude-3.5. Además, demostramos la utilidad de SweLoc para mejorar varios modelos existentes de recuperación y reclasificación para la localización de problemas, estableciendo el conjunto de datos como un recurso valioso para la comunidad.
English
Software issue localization, the task of identifying the precise code
locations (files, classes, or functions) relevant to a natural language issue
description (e.g., bug report, feature request), is a critical yet
time-consuming aspect of software development. While recent LLM-based agentic
approaches demonstrate promise, they often incur significant latency and cost
due to complex multi-step reasoning and relying on closed-source LLMs.
Alternatively, traditional code ranking models, typically optimized for
query-to-code or code-to-code retrieval, struggle with the verbose and
failure-descriptive nature of issue localization queries. To bridge this gap,
we introduce SweRank, an efficient and effective retrieve-and-rerank framework
for software issue localization. To facilitate training, we construct SweLoc, a
large-scale dataset curated from public GitHub repositories, featuring
real-world issue descriptions paired with corresponding code modifications.
Empirical results on SWE-Bench-Lite and LocBench show that SweRank achieves
state-of-the-art performance, outperforming both prior ranking models and
costly agent-based systems using closed-source LLMs like Claude-3.5. Further,
we demonstrate SweLoc's utility in enhancing various existing retriever and
reranker models for issue localization, establishing the dataset as a valuable
resource for the community.Summary
AI-Generated Summary