SoRFT: Risoluzione dei Problemi con Fine-Tuning Rinforzato Orientato ai Sottocompiti

Abstract

I framework principali per la risoluzione di problemi si basano prevalentemente su modelli commerciali, portando a costi elevati e preoccupazioni relative alla privacy. Gli approcci di addestramento esistenti per la risoluzione di problemi lottano con una scarsa generalizzazione e non riescono a sfruttare appieno le risorse di sviluppo open-source. Proponiamo il Subtask-oriented Reinforced Fine-Tuning (SoRFT), un nuovo approccio di addestramento per migliorare la capacità di risoluzione dei problemi dei modelli linguistici di grandi dimensioni (LLM). Scomponiamo la risoluzione di problemi in sottotask strutturati: localizzazione del file, localizzazione della funzione, localizzazione della linea e generazione della modifica del codice. SoRFT consiste in due fasi di addestramento: (1) fine-tuning supervisionato con campionamento di rifiuto, in cui i dati Chain of Thought (CoT) vengono filtrati utilizzando la verità di base prima di applicare il fine-tuning all'LLM, e (2) apprendimento per rinforzo basato su regole, che sfrutta il PPO con ricompense basate sulla verità di base. Valutiamo il modello addestrato con SoRFT su SWE-Bench Verified e SWE-Bench Lite, ottenendo prestazioni all'avanguardia (SOTA) tra i modelli open-source (ad esempio, risolvendo il 21,4% dei problemi su SWE-Bench Verified con SoRFT-Qwen-7B). I risultati sperimentali dimostrano che SoRFT migliora significativamente le prestazioni nella risoluzione dei problemi, aumenta la generalizzazione del modello e fornisce un'alternativa efficiente in termini di costi rispetto ai modelli commerciali.

English

Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

SoRFT: Risoluzione dei Problemi con Fine-Tuning Rinforzato Orientato ai Sottocompiti

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

Abstract

Support