SweRank: Локализация проблем в программном обеспечении с ранжированием кода
SweRank: Software Issue Localization with Code Ranking
May 7, 2025
Авторы: Revanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty
cs.AI
Аннотация
Локализация программных проблем — задача определения точных мест в коде (файлы, классы или функции), связанных с описанием проблемы на естественном языке (например, отчёт об ошибке или запрос на новую функцию), — является важным, но трудоёмким аспектом разработки программного обеспечения. Хотя современные подходы на основе крупных языковых моделей (LLM) демонстрируют перспективные результаты, они часто сопровождаются значительными задержками и затратами из-за сложного многошагового рассуждения и использования закрытых LLM. С другой стороны, традиционные модели ранжирования кода, обычно оптимизированные для задач поиска "запрос-код" или "код-код", плохо справляются с многословными и описательными запросами, характерными для локализации проблем. Чтобы устранить этот разрыв, мы представляем SweRank — эффективную и производительную систему извлечения и повторного ранжирования для локализации программных проблем. Для облегчения обучения мы создали SweLoc — крупномасштабный набор данных, собранный из публичных репозиториев GitHub, содержащий реальные описания проблем, сопоставленные с соответствующими изменениями кода. Экспериментальные результаты на SWE-Bench-Lite и LocBench показывают, что SweRank достигает наилучших результатов, превосходя как предыдущие модели ранжирования, так и дорогостоящие системы на основе закрытых LLM, такие как Claude-3.5. Кроме того, мы демонстрируем полезность SweLoc для улучшения различных существующих моделей извлечения и повторного ранжирования в задачах локализации проблем, подтверждая ценность этого набора данных для сообщества.
English
Software issue localization, the task of identifying the precise code
locations (files, classes, or functions) relevant to a natural language issue
description (e.g., bug report, feature request), is a critical yet
time-consuming aspect of software development. While recent LLM-based agentic
approaches demonstrate promise, they often incur significant latency and cost
due to complex multi-step reasoning and relying on closed-source LLMs.
Alternatively, traditional code ranking models, typically optimized for
query-to-code or code-to-code retrieval, struggle with the verbose and
failure-descriptive nature of issue localization queries. To bridge this gap,
we introduce SweRank, an efficient and effective retrieve-and-rerank framework
for software issue localization. To facilitate training, we construct SweLoc, a
large-scale dataset curated from public GitHub repositories, featuring
real-world issue descriptions paired with corresponding code modifications.
Empirical results on SWE-Bench-Lite and LocBench show that SweRank achieves
state-of-the-art performance, outperforming both prior ranking models and
costly agent-based systems using closed-source LLMs like Claude-3.5. Further,
we demonstrate SweLoc's utility in enhancing various existing retriever and
reranker models for issue localization, establishing the dataset as a valuable
resource for the community.Summary
AI-Generated Summary