ChatPaper.aiChatPaper

SoRFT: Resolución de Problemas con Ajuste Fino Reforzado Orientado a Subtareas

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

February 27, 2025
Autores: Zexiong Ma, Chao Peng, Pengfei Gao, Xiangxin Meng, Yanzhen Zou, Bing Xie
cs.AI

Resumen

Los marcos predominantes para la resolución de problemas en la corriente principal dependen principalmente de modelos comerciales, lo que conlleva altos costos y preocupaciones sobre la privacidad. Los enfoques de entrenamiento existentes para la resolución de problemas luchan con una mala generalización y no logran aprovechar completamente los recursos de desarrollo de código abierto. Proponemos Subtask-oriented Reinforced Fine-Tuning (SoRFT), un enfoque de entrenamiento novedoso para mejorar la capacidad de resolución de problemas de LLMs. Descomponemos la resolución de problemas en subtareas estructuradas: localización de archivos, localización de funciones, localización de líneas y generación de edición de código. SoRFT consta de dos etapas de entrenamiento: (1) ajuste fino supervisado con muestreo de rechazo, los datos de Chain of Thought (CoT) se filtran utilizando la verdad fundamental antes de ajustar finamente el LLM, y (2) aprendizaje por refuerzo basado en reglas, que aprovecha PPO con recompensas basadas en la verdad fundamental. Evaluamos el modelo entrenado con SoRFT en SWE-Bench Verified y SWE-Bench Lite, logrando un rendimiento de vanguardia entre los modelos de código abierto (por ejemplo, resolviendo el 21.4% de los problemas en SWE-Bench Verified con SoRFT-Qwen-7B). Los resultados experimentales demuestran que SoRFT mejora significativamente el rendimiento en la resolución de problemas, mejora la generalización del modelo y proporciona una alternativa rentable a los modelos comerciales.
English
Mainstream issue-resolving frameworks predominantly rely on commercial models, leading to high costs and privacy concerns. Existing training approaches for issue resolving struggle with poor generalization and fail to fully leverage open-source development resources. We propose Subtask-oriented Reinforced Fine-Tuning (SoRFT), a novel training approach to enhance the issue resolving capability of LLMs. We decomposes issue resolving into structured subtasks: file localization, function localization, line localization, and code edit generation. SoRFT consists of two training stages: (1) rejection-sampled supervised fine-tuning, Chain of Thought (CoT) data is filtered using ground-truth before fine-tuning the LLM, and (2) rule-based reinforcement learning, which leverages PPO with ground-truth based rewards. We evaluate the SoRFT-trained model on SWE-Bench Verified and SWE-Bench Lite, achieving state-of-the-art (SOTA) performance among open-source models (e.g., resolve 21.4% issues on SWE-Bench Verified with SoRFT-Qwen-7B). The experimental results demonstrate that SoRFT significantly enhances issue-resolving performance, improves model generalization, and provides a cost-efficient alternative to commercial models.

Summary

AI-Generated Summary

PDF92February 28, 2025