SoRFT: Resolução de Problemas com Ajuste Fino Reforçado Orientado a Subtarefas
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning
February 27, 2025
Autores: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI
Resumo
Os frameworks predominantes de resolução de problemas geralmente dependem de modelos comerciais, resultando em altos custos e preocupações com privacidade. As abordagens de treinamento existentes para resolução de problemas enfrentam dificuldades de generalização e não conseguem aproveitar totalmente os recursos de desenvolvimento de código aberto. Propomos o Ajuste Fino Reforçado Orientado a Subtarefas (SoRFT), uma abordagem de treinamento inovadora para aprimorar a capacidade de resolução de problemas dos LLMs. Nós decomponemos a resolução de problemas em subtarefas estruturadas: localização de arquivos, localização de funções, localização de linhas e geração de edição de código. O SoRFT consiste em duas etapas de treinamento: (1) ajuste fino supervisionado com amostragem de rejeição, os dados da Cadeia de Pensamento (CoT) são filtrados usando a verdade básica antes do ajuste fino do LLM, e (2) aprendizado por reforço baseado em regras, que utiliza o PPO com recompensas baseadas na verdade básica. Avaliamos o modelo treinado com SoRFT no SWE-Bench Verified e SWE-Bench Lite, alcançando desempenho de ponta entre os modelos de código aberto (por exemplo, resolvendo 21,4% dos problemas no SWE-Bench Verified com SoRFT-Qwen-7B). Os resultados experimentais demonstram que o SoRFT melhora significativamente o desempenho na resolução de problemas, aprimora a generalização do modelo e oferece uma alternativa eficiente em termos de custos aos modelos comerciais.
English
Mainstream issue-resolving frameworks predominantly rely on commercial
models, leading to high costs and privacy concerns. Existing training
approaches for issue resolving struggle with poor generalization and fail to
fully leverage open-source development resources. We propose Subtask-oriented
Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue
resolving capability of LLMs. We decomposes issue resolving into structured
subtasks: file localization, function localization, line localization, and code
edit generation. SoRFT consists of two training stages: (1) rejection-sampled
supervised fine-tuning, Chain of Thought (CoT) data is filtered using
ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement
learning, which leverages PPO with ground-truth based rewards. We evaluate the
SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving
state-of-the-art (SOTA) performance among open-source models (e.g., resolve
21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental
results demonstrate that SoRFT significantly enhances issue-resolving
performance, improves model generalization, and provides a cost-efficient
alternative to commercial models.Summary
AI-Generated Summary