К единому взгляду на посттренировку больших языковых моделей

Аннотация

Существует два основных источника обучающих данных для посттренировки современных языковых моделей: онлайн-данные (сгенерированные моделью последовательности) и оффлайн-данные (демонстрации от людей или других моделей). Эти два типа данных обычно используются подходами, такими как обучение с подкреплением (Reinforcement Learning, RL) и тонкая настройка с учителем (Supervised Fine-Tuning, SFT), соответственно. В данной работе мы показываем, что эти подходы не противоречат друг другу, а являются частями единого процесса оптимизации. Мы выводим унифицированный оценщик градиента политики и представляем вычисления для широкого спектра подходов посттренировки как градиент общей целевой функции при различных предположениях о распределении данных и различных компромиссах между смещением и дисперсией. Оценщик градиента строится из четырех взаимозаменяемых компонентов: маски стабилизации, знаменателя эталонной политики, оценки преимущества и градиента правдоподобия. Вдохновленные нашими теоретическими выводами, мы предлагаем гибридную посттренировку (Hybrid Post-Training, HPT) — алгоритм, который динамически выбирает различные обучающие сигналы. HPT разработан для эффективного использования демонстраций и стабильного исследования без ущерба для изученных паттернов рассуждений. Мы проводим обширные эксперименты и исследования с удалением компонентов, чтобы подтвердить эффективность нашей унифицированной теоретической основы и HPT. На шести бенчмарках математического рассуждения и двух наборах данных вне распределения HPT стабильно превосходит сильные базовые модели различных масштабов и семейств.

English

Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present the calculations of a wide spectrum of post-training approaches as the gradient of a common objective under different data distribution assumptions and various bias-variance tradeoffs. The gradient estimator is constructed with four interchangeable parts: stabilization mask, reference policy denominator, advantage estimate, and likelihood gradient. Motivated by our theoretical findings, we propose Hybrid Post-Training (HPT), an algorithm that dynamically selects different training signals. HPT is designed to yield both effective exploitation of demonstration and stable exploration without sacrificing learned reasoning patterns. We provide extensive experiments and ablation studies to verify the effectiveness of our unified theoretical framework and HPT. Across six mathematical reasoning benchmarks and two out-of-distribution suites, HPT consistently surpasses strong baselines across models of varying scales and families.

К единому взгляду на посттренировку больших языковых моделей

Towards a Unified View of Large Language Model Post-Training

Аннотация

Support