ChatPaper.aiChatPaper

SoRFT: Probleemoplossing met Subtaakgericht Versterkt Fijnafstemmen

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

February 27, 2025
Auteurs: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI

Samenvatting

Gangbare probleemoplossingskaders vertrouwen voornamelijk op commerciële modellen, wat leidt tot hoge kosten en privacyzorgen. Bestaande trainingsbenaderingen voor probleemoplossing worstelen met slechte generalisatie en slagen er niet in om volledig gebruik te maken van open-source ontwikkelingsbronnen. Wij stellen Subtaakgericht Versterkt Fijnafstemming (SoRFT) voor, een nieuwe trainingsbenadering om de probleemoplossingscapaciteit van LLM's te verbeteren. We ontleden probleemoplossing in gestructureerde subtaken: bestandslokalisatie, functielokalisatie, regellokalisatie en codebewerkingsgeneratie. SoRFT bestaat uit twee trainingsfasen: (1) afwijzingsgesamplede begeleide fijnafstemming, Chain of Thought (CoT)-gegevens worden gefilterd met behulp van grondwaarheid voordat de LLM wordt fijngestemd, en (2) op regels gebaseerd versterkend leren, dat gebruikmaakt van PPO met op grondwaarheid gebaseerde beloningen. We evalueren het door SoRFT getrainde model op SWE-Bench Verified en SWE-Bench Lite, waarbij we state-of-the-art (SOTA) prestaties behalen onder open-source modellen (bijv. 21,4% van de problemen opgelost op SWE-Bench Verified met SoRFT-Qwen-7B). De experimentele resultaten tonen aan dat SoRFT de prestaties van probleemoplossing aanzienlijk verbetert, de modelgeneralisatie verbetert en een kostenefficiënt alternatief biedt voor commerciële modellen.
English
Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

Summary

AI-Generated Summary

PDF92February 28, 2025