UFT: Унификация контролируемой и подкрепляющей тонкой настройки
UFT: Unifying Supervised and Reinforcement Fine-Tuning
May 22, 2025
Авторы: Mingyang Liu, Gabriele Farina, Asuman Ozdaglar
cs.AI
Аннотация
Посттренинг продемонстрировал свою важность в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Основные методы посттренинга можно разделить на контролируемую тонкую настройку (SFT) и тонкую настройку с подкреплением (RFT). SFT эффективна и хорошо подходит для небольших языковых моделей, но может привести к переобучению и ограничить способности к рассуждению у более крупных моделей. В отличие от этого, RFT обычно обеспечивает лучшее обобщение, но сильно зависит от качества базовой модели. Чтобы устранить ограничения SFT и RFT, мы предлагаем Унифицированную Тонкую Настройку (UFT) — новый подход к посттренингу, который объединяет SFT и RFT в единый интегрированный процесс. UFT позволяет модели эффективно исследовать решения, одновременно учитывая информативные сигналы контроля, устраняя разрыв между запоминанием и мышлением, присущий существующим методам. Примечательно, что UFT превосходит как SFT, так и RFT в целом, независимо от размера модели. Более того, мы теоретически доказываем, что UFT преодолевает присущее RFT экспоненциальное ограничение сложности выборки, впервые показывая, что унифицированное обучение может экспоненциально ускорить сходимость на задачах долгосрочного рассуждения.
English
Post-training has demonstrated its importance in enhancing the reasoning
capabilities of large language models (LLMs). The primary post-training methods
can be categorized into supervised fine-tuning (SFT) and reinforcement
fine-tuning (RFT). SFT is efficient and well-suited for small language models,
but it may lead to overfitting and limit the reasoning abilities of larger
models. In contrast, RFT generally yields better generalization but depends
heavily on the strength of the base model. To address the limitations of SFT
and RFT, we propose Unified Fine-Tuning (UFT), a novel post-training paradigm
that unifies SFT and RFT into a single, integrated process. UFT enables the
model to effectively explore solutions while incorporating informative
supervision signals, bridging the gap between memorizing and thinking
underlying existing methods. Notably, UFT outperforms both SFT and RFT in
general, regardless of model sizes. Furthermore, we theoretically prove that
UFT breaks RFT's inherent exponential sample complexity bottleneck, showing for
the first time that unified training can exponentially accelerate convergence
on long-horizon reasoning tasks.Summary
AI-Generated Summary