ChatPaper.aiChatPaper

UFT: Unificando o Ajuste Fino Supervisionado e por Reforço

UFT: Unifying Supervised and Reinforcement Fine-Tuning

May 22, 2025
Autores: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI

Resumo

O pós-treinamento demonstrou sua importância no aprimoramento das capacidades de raciocínio de grandes modelos de linguagem (LLMs). Os principais métodos de pós-treinamento podem ser categorizados em ajuste fino supervisionado (SFT) e ajuste fino por reforço (RFT). O SFT é eficiente e bem adequado para modelos de linguagem menores, mas pode levar a sobreajuste e limitar as habilidades de raciocínio de modelos maiores. Em contraste, o RFT geralmente resulta em melhor generalização, mas depende fortemente da força do modelo base. Para abordar as limitações do SFT e do RFT, propomos o Ajuste Fino Unificado (UFT), um novo paradigma de pós-treinamento que unifica o SFT e o RFT em um único processo integrado. O UFT permite que o modelo explore soluções de forma eficaz, incorporando sinais de supervisão informativos, preenchendo a lacuna entre memorizar e pensar subjacente aos métodos existentes. Notavelmente, o UFT supera tanto o SFT quanto o RFT em geral, independentemente do tamanho do modelo. Além disso, provamos teoricamente que o UFT quebra o gargalo inerente de complexidade exponencial de amostras do RFT, mostrando pela primeira vez que o treinamento unificado pode acelerar exponencialmente a convergência em tarefas de raciocínio de longo prazo.
English
Post-training has demonstrated its importance in enhancing the reasoning capabilities of large language models (LLMs). The primary post-training methods can be categorized into supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT). SFT is efficient and well-suited for small language models, but it may lead to overfitting and limit the reasoning abilities of larger models. In contrast, RFT generally yields better generalization but depends heavily on the strength of the base model. To address the limitations of SFT and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm that unifies SFT and RFT into a single, integrated process. UFT enables the model to effectively explore solutions while incorporating informative supervision signals, bridging the gap between memorizing and thinking underlying existing methods. Notably, UFT outperforms both SFT and RFT in general, regardless of model sizes. Furthermore, we theoretically prove that UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for the first time that unified training can exponentially accelerate convergence on long-horizon reasoning tasks.
PDF33December 16, 2025