SoRFT: Resolución de Problemas con Ajuste Fino Reforzado Orientado a Subtareas

Resumen

Los marcos predominantes para la resolución de problemas en la corriente principal dependen principalmente de modelos comerciales, lo que conlleva altos costos y preocupaciones sobre la privacidad. Los enfoques de entrenamiento existentes para la resolución de problemas luchan con una mala generalización y no logran aprovechar completamente los recursos de desarrollo de código abierto. Proponemos Subtask-oriented Reinforced Fine-Tuning (SoRFT), un enfoque de entrenamiento novedoso para mejorar la capacidad de resolución de problemas de LLMs. Descomponemos la resolución de problemas en subtareas estructuradas: localización de archivos, localización de funciones, localización de líneas y generación de edición de código. SoRFT consta de dos etapas de entrenamiento: (1) ajuste fino supervisado con muestreo de rechazo, los datos de Chain of Thought (CoT) se filtran utilizando la verdad fundamental antes de ajustar finamente el LLM, y (2) aprendizaje por refuerzo basado en reglas, que aprovecha PPO con recompensas basadas en la verdad fundamental. Evaluamos el modelo entrenado con SoRFT en SWE-Bench Verified y SWE-Bench Lite, logrando un rendimiento de vanguardia entre los modelos de código abierto (por ejemplo, resolviendo el 21.4% de los problemas en SWE-Bench Verified con SoRFT-Qwen-7B). Los resultados experimentales demuestran que SoRFT mejora significativamente el rendimiento en la resolución de problemas, mejora la generalización del modelo y proporciona una alternativa rentable a los modelos comerciales.

English

Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

SoRFT: Resolución de Problemas con Ajuste Fino Reforzado Orientado a Subtareas

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

Resumen

Support