SoRFT: Resolución de Problemas con Ajuste Fino Reforzado Orientado a Subtareas
SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning
February 27, 2025
Autores: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI
Resumen
Los marcos predominantes para la resolución de problemas en la corriente principal dependen principalmente de modelos comerciales, lo que conlleva altos costos y preocupaciones sobre la privacidad. Los enfoques de entrenamiento existentes para la resolución de problemas luchan con una mala generalización y no logran aprovechar completamente los recursos de desarrollo de código abierto. Proponemos Subtask-oriented Reinforced Fine-Tuning (SoRFT), un enfoque de entrenamiento novedoso para mejorar la capacidad de resolución de problemas de LLMs. Descomponemos la resolución de problemas en subtareas estructuradas: localización de archivos, localización de funciones, localización de líneas y generación de edición de código. SoRFT consta de dos etapas de entrenamiento: (1) ajuste fino supervisado con muestreo de rechazo, los datos de Chain of Thought (CoT) se filtran utilizando la verdad fundamental antes de ajustar finamente el LLM, y (2) aprendizaje por refuerzo basado en reglas, que aprovecha PPO con recompensas basadas en la verdad fundamental. Evaluamos el modelo entrenado con SoRFT en SWE-Bench Verified y SWE-Bench Lite, logrando un rendimiento de vanguardia entre los modelos de código abierto (por ejemplo, resolviendo el 21.4% de los problemas en SWE-Bench Verified con SoRFT-Qwen-7B). Los resultados experimentales demuestran que SoRFT mejora significativamente el rendimiento en la resolución de problemas, mejora la generalización del modelo y proporciona una alternativa rentable a los modelos comerciales.
English
Mainstream issue-resolving frameworks predominantly rely on commercial
models, leading to high costs and privacy concerns. Existing training
approaches for issue resolving struggle with poor generalization and fail to
fully leverage open-source development resources. We propose Subtask-oriented
Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue
resolving capability of LLMs. We decomposes issue resolving into structured
subtasks: file localization, function localization, line localization, and code
edit generation. SoRFT consists of two training stages: (1) rejection-sampled
supervised fine-tuning, Chain of Thought (CoT) data is filtered using
ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement
learning, which leverages PPO with ground-truth based rewards. We evaluate the
SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving
state-of-the-art (SOTA) performance among open-source models (e.g., resolve
21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental
results demonstrate that SoRFT significantly enhances issue-resolving
performance, improves model generalization, and provides a cost-efficient
alternative to commercial models.Summary
AI-Generated Summary