SoRFT: Risoluzione dei Problemi con Fine-Tuning Rinforzato Orientato ai Sottocompiti
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning
February 27, 2025
Autori: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI
Abstract
I framework principali per la risoluzione di problemi si basano prevalentemente su modelli commerciali, portando a costi elevati e preoccupazioni relative alla privacy. Gli approcci di addestramento esistenti per la risoluzione di problemi lottano con una scarsa generalizzazione e non riescono a sfruttare appieno le risorse di sviluppo open-source. Proponiamo il Subtask-oriented Reinforced Fine-Tuning (SoRFT), un nuovo approccio di addestramento per migliorare la capacità di risoluzione dei problemi dei modelli linguistici di grandi dimensioni (LLM). Scomponiamo la risoluzione di problemi in sottotask strutturati: localizzazione del file, localizzazione della funzione, localizzazione della linea e generazione della modifica del codice. SoRFT consiste in due fasi di addestramento: (1) fine-tuning supervisionato con campionamento di rifiuto, in cui i dati Chain of Thought (CoT) vengono filtrati utilizzando la verità di base prima di applicare il fine-tuning all'LLM, e (2) apprendimento per rinforzo basato su regole, che sfrutta il PPO con ricompense basate sulla verità di base. Valutiamo il modello addestrato con SoRFT su SWE-Bench Verified e SWE-Bench Lite, ottenendo prestazioni all'avanguardia (SOTA) tra i modelli open-source (ad esempio, risolvendo il 21,4% dei problemi su SWE-Bench Verified con SoRFT-Qwen-7B). I risultati sperimentali dimostrano che SoRFT migliora significativamente le prestazioni nella risoluzione dei problemi, aumenta la generalizzazione del modello e fornisce un'alternativa efficiente in termini di costi rispetto ai modelli commerciali.
English
Mainstream issue-resolving frameworks predominantly rely on commercial
models, leading to high costs and privacy concerns. Existing training
approaches for issue resolving struggle with poor generalization and fail to
fully leverage open-source development resources. We propose Subtask-oriented
Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue
resolving capability of LLMs. We decomposes issue resolving into structured
subtasks: file localization, function localization, line localization, and code
edit generation. SoRFT consists of two training stages: (1) rejection-sampled
supervised fine-tuning, Chain of Thought (CoT) data is filtered using
ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement
learning, which leverages PPO with ground-truth based rewards. We evaluate the
SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving
state-of-the-art (SOTA) performance among open-source models (e.g., resolve
21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental
results demonstrate that SoRFT significantly enhances issue-resolving
performance, improves model generalization, and provides a cost-efficient
alternative to commercial models.Summary
AI-Generated Summary