ChatPaper.aiChatPaper

SoRFT: Problemlösung durch subtaskorientiertes verstärktes Feintuning

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

February 27, 2025
Autoren: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI

Zusammenfassung

Gängige Frameworks zur Problemlösung stützen sich überwiegend auf kommerzielle Modelle, was zu hohen Kosten und Datenschutzbedenken führt. Bestehende Trainingsansätze für die Problemlösung kämpfen mit schlechter Generalisierung und schöpfen die Ressourcen der Open-Source-Entwicklung nicht vollständig aus. Wir schlagen Subtask-oriented Reinforced Fine-Tuning (SoRFT) vor, einen neuartigen Trainingsansatz zur Verbesserung der Problemlösungsfähigkeit von LLMs. Dabei wird die Problemlösung in strukturierte Teilaufgaben zerlegt: Dateilokalisierung, Funktionslokalisierung, Zeilenlokalisierung und Code-Edit-Generierung. SoRFT besteht aus zwei Trainingsphasen: (1) abgelehntes, überwachtes Feintuning, bei dem Chain of Thought (CoT)-Daten mithilfe von Ground-Truth gefiltert werden, bevor das LLM feinabgestimmt wird, und (2) regelbasiertes Reinforcement Learning, das PPO mit Ground-Truth-basierten Belohnungen nutzt. Wir evaluieren das mit SoRFT trainierte Modell auf SWE-Bench Verified und SWE-Bench Lite und erzielen state-of-the-art (SOTA)-Leistungen unter Open-Source-Modellen (z. B. Lösung von 21,4 % der Probleme auf SWE-Bench Verified mit SoRFT-Qwen-7B). Die experimentellen Ergebnisse zeigen, dass SoRFT die Problemlösungsleistung signifikant verbessert, die Modellgeneralisierung erhöht und eine kosteneffiziente Alternative zu kommerziellen Modellen bietet.
English
Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

Summary

AI-Generated Summary

PDF92February 28, 2025