ChatPaper.aiChatPaper

Интеграция инструментов с обучением с подкреплением для глубокого поиска в репозиториях

Tool-integrated Reinforcement Learning for Repo Deep Search

August 5, 2025
Авторы: Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie
cs.AI

Аннотация

Локализация проблем, процесс определения мест в коде, которые требуют изменений для устранения программных ошибок, является важной, но сложной задачей в разработке программного обеспечения. Семантический разрыв между описаниями проблем на естественном языке и ошибочным кодом требует сложного многошагового рассуждения через зависимости в коде. Существующие агенты на основе больших языковых моделей (LLM) пытаются решить эту проблему, интегрируя инструменты поиска в репозиториях. Однако это превращает локализацию проблем в трудоемкую задачу, которую мы называем Глубокий Поиск в Репозитории (Repo Deep Search), требующую от LLM эффективного использования различных инструментов поиска на протяжении многошагового процесса рассуждения и навигации. Для решения этой задачи мы представляем ToolTrain, двухэтапную структуру обучения с интеграцией инструментов, сочетающую тонкую настройку с отбраковкой и обучение с подкреплением с использованием инструментов, чтобы улучшить способность LLM использовать инструменты поиска для локализации проблем. Экспериментальные результаты показывают, что модели, обученные с помощью ToolTrain, достигают наилучших результатов, причем наша 32B модель даже превосходит Claude-3.7 в локализации на уровне функций. Результаты также демонстрируют, что улучшенная производительность локализации приводит к лучшей производительности в сквозном решении проблем. Это дополнительно подтверждает, что обучение для локализации проблем является жизнеспособной и эффективной стратегией для улучшения автоматизированной разработки программного обеспечения.
English
Issue localization, the process of identifying code locations that need modification to resolve software issues, is a critical yet challenging task in software development. The semantic gap between natural language issue descriptions and faulty code requires complex multi-hop reasoning through code dependencies. Existing LLM-based agents attempt to address this by integrating repository retrieval tools. However, this transforms issue localization into a demanding task we call Repo Deep Search, which requires the LLM to effectively utilize various repository retrieval tools throughout a multi-step reasoning and navigation process. To tackle this challenge, we present ToolTrain, a two-stage tool-integrated training framework combining rejection-sampled supervised fine-tuning and tool-integrated reinforcement learning to enhance LLMs' ability to use retrieval tools for issue localization. Experimental results show that ToolTrain-trained models achieve state-of-the-art performance, with our 32B model even surpassing Claude-3.7 on function-level localization. The results also show that improved localization performance translates to better end-to-end issue resolution performance. This further demonstrates that training for issue localization is a viable and effective strategy for improving automated software development.
PDF183August 6, 2025