**С какой скоростью модель должна принимать обучающий сигнал? Обучение моделей рассуждений с использованием континуума потерь Тсаллиса**
How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum
April 28, 2026
Авторы: Chu-Cheng Lin, Eugene Ie
cs.AI
Аннотация
Адаптация моделей логического вывода к новым задачам в процессе пост-обучения при наличии только выходной супервизии останавливается при использовании обучения с подкреплением на основе верифицируемых вознаграждений (RLVR), когда начальная вероятность успеха p_0 мала. Используя q-логарифм Тсаллиса, мы определяем семейство функций потерь J_Q, которое интерполирует между RLVR (при q=0, полюс эксплуатации) и логарифмической правдоподобия по латентным траекториям (при q=1, полюс оценки плотности). Все члены семейства имеют одинаковое направление градиента для каждого примера, различаясь лишь скалярным коэффициентом усиления P_{θ^{-q}}, который перевзвешивает каждый экземпляр независимо от скорости обучения. Это усиление является механизмом решения проблемы остановки при холодном старте: в рамках градиентного потока полюс эксплуатации требует времени Ω(1/p_0) для выхода из холодного старта, тогда как полюс оценки плотности выходит за Θ(log(1/p_0)); промежуточные значения q позволяют обменивать скорость выхода на запоминание шума. Поскольку P_θ не поддается точному вычислению, мы выводим два метода Монте-Карло из двух факторизаций градиента: RL с усиленным градиентом (GARL), который семплирует из априорного распределения и усиливает градиент RL, и тонкую настройку с ослабленным апостериорным распределением (PAFT), который проводит важностное повторное семплирование из апостериорного распределения и выполняет стандартную SFT. Оба метода имеют смещение O(q/(M P_θ^{q+1})); GARL имеет меньшую дисперсию, а PAFT — семантически согласованные градиенты. На FinQA, HotPotQA и MuSiQue метод GARL при q=0.75 существенно смягчает проблему холодного старта, выходя из него там, где GRPO полностью терпит неудачу. При теплом старте GARL с низким q доминирует на FinQA, где обучение стабильно; на HotPotQA и MuSiQue GARL становится нестабильным в процессе обучения, а PAFT при q=0.75 обеспечивает стабильные градиенты (наилучший общий результат на HotPotQA — 47.9 maj@16, +14.4 по сравнению с GRPO).
English
Adapting reasoning models to new tasks during post-training with only output-level supervision stalls under reinforcement learning from verifiable rewards (RLVR) when the initial success probability p_0 is small. Using the Tsallis q-logarithm, we define a loss family J_Q that interpolates between RLVR (at q{=}0, the exploitation pole) and the log-marginal-likelihood over latent trajectories (at q{=}1, the density-estimation pole). All members share the same per-example gradient direction, differing only by a scalar amplification P_{θ^{-q}} that reweights each instance independently of the learning rate. This amplification is the mechanism that addresses cold-start stalling: under gradient flow, the exploitation pole requires Ω(1{p_0}) time to escape cold start, while the density-estimation pole escapes in Θbig(log(1{p_0})big); intermediate q trades escape speed against noise memorization. Because P_θ is intractable, we derive two Monte Carlo estimators from the two factorizations of the gradient: Gradient-Amplified RL (GARL) samples from the prior and amplifies the RL gradient, and Posterior-Attenuated Fine-Tuning (PAFT) importance-resamples from the posterior and runs standard SFT. Both have bias Obig(q{M P_θ^{q+1}}big); GARL has lower variance, PAFT has semantically coherent gradients. On FinQA, HotPotQA, and MuSiQue, GARL at q{=}0.75 substantially mitigates cold-start stalling, escaping cold start where GRPO fails entirely. In warm start, GARL at low q dominates FinQA where training is stable; on HotPotQA and MuSiQue, GARL destabilizes during training, and PAFT at q{=}0.75 provides stable gradients (best overall on HotPotQA at 47.9 maj@16, +14.4 over GRPO).