Интеграция инструментов с обучением с подкреплением для глубокого поиска в репозиториях
Tool-integrated Reinforcement Learning for Repo Deep Search
August 5, 2025
Авторы: Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie
cs.AI
Аннотация
Локализация проблем, процесс определения мест в коде, которые требуют изменений для устранения программных ошибок, является важной, но сложной задачей в разработке программного обеспечения. Семантический разрыв между описаниями проблем на естественном языке и ошибочным кодом требует сложного многошагового рассуждения через зависимости в коде. Существующие агенты на основе больших языковых моделей (LLM) пытаются решить эту проблему, интегрируя инструменты поиска в репозиториях. Однако это превращает локализацию проблем в трудоемкую задачу, которую мы называем Глубокий Поиск в Репозитории (Repo Deep Search), требующую от LLM эффективного использования различных инструментов поиска на протяжении многошагового процесса рассуждения и навигации. Для решения этой задачи мы представляем ToolTrain, двухэтапную структуру обучения с интеграцией инструментов, сочетающую тонкую настройку с отбраковкой и обучение с подкреплением с использованием инструментов, чтобы улучшить способность LLM использовать инструменты поиска для локализации проблем. Экспериментальные результаты показывают, что модели, обученные с помощью ToolTrain, достигают наилучших результатов, причем наша 32B модель даже превосходит Claude-3.7 в локализации на уровне функций. Результаты также демонстрируют, что улучшенная производительность локализации приводит к лучшей производительности в сквозном решении проблем. Это дополнительно подтверждает, что обучение для локализации проблем является жизнеспособной и эффективной стратегией для улучшения автоматизированной разработки программного обеспечения.
English
Issue localization, the process of identifying code locations that need
modification to resolve software issues, is a critical yet challenging task in
software development. The semantic gap between natural language issue
descriptions and faulty code requires complex multi-hop reasoning through code
dependencies. Existing LLM-based agents attempt to address this by integrating
repository retrieval tools. However, this transforms issue localization into a
demanding task we call Repo Deep Search, which requires the LLM to effectively
utilize various repository retrieval tools throughout a multi-step reasoning
and navigation process. To tackle this challenge, we present ToolTrain, a
two-stage tool-integrated training framework combining rejection-sampled
supervised fine-tuning and tool-integrated reinforcement learning to enhance
LLMs' ability to use retrieval tools for issue localization. Experimental
results show that ToolTrain-trained models achieve state-of-the-art
performance, with our 32B model even surpassing Claude-3.7 on function-level
localization. The results also show that improved localization performance
translates to better end-to-end issue resolution performance. This further
demonstrates that training for issue localization is a viable and effective
strategy for improving automated software development.