ChatPaper.aiChatPaper

UFT: Unificación del Ajuste Fino Supervisado y por Refuerzo

UFT: Unifying Supervised and Reinforcement Fine-Tuning

May 22, 2025
Autores: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI

Resumen

El post-entrenamiento ha demostrado su importancia para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Los principales métodos de post-entrenamiento pueden categorizarse en ajuste fino supervisado (SFT, por sus siglas en inglés) y ajuste fino por refuerzo (RFT, por sus siglas en inglés). El SFT es eficiente y se adapta bien a modelos de lenguaje pequeños, pero puede provocar sobreajuste y limitar las habilidades de razonamiento de modelos más grandes. En contraste, el RFT generalmente ofrece una mejor generalización, pero depende en gran medida de la fortaleza del modelo base. Para abordar las limitaciones del SFT y el RFT, proponemos el Ajuste Fino Unificado (UFT, por sus siglas en inglés), un nuevo paradigma de post-entrenamiento que unifica el SFT y el RFT en un único proceso integrado. El UFT permite que el modelo explore soluciones de manera efectiva mientras incorpora señales de supervisión informativas, cerrando la brecha entre memorizar y pensar subyacente en los métodos existentes. Cabe destacar que el UFT supera tanto al SFT como al RFT en general, independientemente del tamaño del modelo. Además, demostramos teóricamente que el UFT rompe el cuello de botella inherente de complejidad exponencial de muestras del RFT, mostrando por primera vez que el entrenamiento unificado puede acelerar exponencialmente la convergencia en tareas de razonamiento de largo horizonte.
English
Post-training has demonstrated its importance in enhancing the reasoning capabilities of large language models (LLMs). The primary post-training methods can be categorized into supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT is efficient and well-suited for small language models, but it may lead to overfitting and limit the reasoning abilities of larger models. In contrast, RFT generally yields better generalization but depends heavily on the strength of the base model. To address the limitations of SFT and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm that unifies SFT and RFT into a single, integrated process. UFT enables the model to effectively explore solutions while incorporating informative supervision signals, bridging the gap between memorizing and thinking underlying existing methods. Notably, UFT outperforms both SFT and RFT in general, regardless of model sizes. Furthermore, we theoretically prove that UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for the first time that unified training can exponentially accelerate convergence on long-horizon reasoning tasks.

Summary

AI-Generated Summary

PDF33May 27, 2025