SoRFT : Résolution de problèmes par affinage renforcé orienté sous-tâches
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning
February 27, 2025
Auteurs: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI
Résumé
Les cadres de résolution de problèmes dominants reposent principalement sur des modèles commerciaux, entraînant des coûts élevés et des préoccupations en matière de confidentialité. Les approches de formation existantes pour la résolution de problèmes peinent à généraliser efficacement et ne parviennent pas à exploiter pleinement les ressources de développement open source. Nous proposons le Réglage Fin Renforcé Orienté Sous-tâches (SoRFT), une nouvelle approche de formation visant à améliorer la capacité des modèles de langage (LLMs) à résoudre des problèmes. Nous décomposons la résolution de problèmes en sous-tâches structurées : localisation de fichiers, localisation de fonctions, localisation de lignes et génération de modifications de code. SoRFT se compose de deux étapes de formation : (1) un réglage fin supervisé par échantillonnage de rejet, où les données de Chaîne de Pensée (CoT) sont filtrées à l'aide de la vérité terrain avant de régler finement le LLM, et (2) un apprentissage par renforcement basé sur des règles, qui exploite PPO avec des récompenses basées sur la vérité terrain. Nous évaluons le modèle formé avec SoRFT sur SWE-Bench Verified et SWE-Bench Lite, obtenant des performances de pointe (SOTA) parmi les modèles open source (par exemple, résolution de 21,4 % des problèmes sur SWE-Bench Verified avec SoRFT-Qwen-7B). Les résultats expérimentaux démontrent que SoRFT améliore significativement les performances de résolution de problèmes, améliore la généralisation du modèle et offre une alternative rentable aux modèles commerciaux.
English
Mainstream issue-resolving frameworks predominantly rely on commercial
models, leading to high costs and privacy concerns. Existing training
approaches for issue resolving struggle with poor generalization and fail to
fully leverage open-source development resources. We propose Subtask-oriented
Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue
resolving capability of LLMs. We decomposes issue resolving into structured
subtasks: file localization, function localization, line localization, and code
edit generation. SoRFT consists of two training stages: (1) rejection-sampled
supervised fine-tuning, Chain of Thought (CoT) data is filtered using
ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement
learning, which leverages PPO with ground-truth based rewards. We evaluate the
SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving
state-of-the-art (SOTA) performance among open-source models (e.g., resolve
21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental
results demonstrate that SoRFT significantly enhances issue-resolving
performance, improves model generalization, and provides a cost-efficient
alternative to commercial models.Summary
AI-Generated Summary