ChatPaper.aiChatPaper

Sobre la Generalización del Aprendizaje Supervisado por Retroalimentación: Una Perspectiva de Aprendizaje por Refuerzo con Rectificación de Recompensas

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

August 7, 2025
Autores: Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
cs.AI

Resumen

Presentamos una mejora simple pero teóricamente fundamentada al Ajuste Fino Supervisado (SFT) para Modelos de Lenguaje de Gran Escala (LLM), abordando su limitada generalización en comparación con el aprendizaje por refuerzo (RL). Mediante análisis matemático, revelamos que los gradientes estándar de SFT codifican implícitamente una estructura de recompensa problemática que puede restringir severamente las capacidades de generalización del modelo. Para rectificar esto, proponemos el Ajuste Fino Dinámico (DFT), estabilizando las actualizaciones de gradiente para cada token al reescalar dinámicamente la función objetivo con la probabilidad de dicho token. Notablemente, este cambio de una sola línea de código supera significativamente al SFT estándar en múltiples benchmarks desafiantes y modelos base, demostrando una generalización considerablemente mejorada. Además, nuestro enfoque muestra resultados competitivos en entornos de RL offline, ofreciendo una alternativa efectiva pero más simple. Este trabajo conecta la teoría con soluciones prácticas, avanzando sustancialmente el rendimiento del SFT. El código estará disponible en https://github.com/yongliang-wu/DFT.
English
We present a simple yet theoretically motivated improvement to Supervised Fine-Tuning (SFT) for the Large Language Model (LLM), addressing its limited generalization compared to reinforcement learning (RL). Through mathematical analysis, we reveal that standard SFT gradients implicitly encode a problematic reward structure that may severely restrict the generalization capabilities of model. To rectify this, we propose Dynamic Fine-Tuning (DFT), stabilizing gradient updates for each token by dynamically rescaling the objective function with the probability of this token. Remarkably, this single-line code change significantly outperforms standard SFT across multiple challenging benchmarks and base models, demonstrating greatly improved generalization. Additionally, our approach shows competitive results in offline RL settings, offering an effective yet simpler alternative. This work bridges theoretical insight and practical solutions, substantially advancing SFT performance. The code will be available at https://github.com/yongliang-wu/DFT.
PDF12615August 8, 2025