¿Qué Tan Rápido Debe Comprometerse un Modelo con la Supervisión? Entrenamiento de Modelos de Razonamiento en el Continuo de Pérdida de Tsallis
How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum
April 28, 2026
Autores: Chu-Cheng Lin, Eugene Ie
cs.AI
Resumen
La adaptación de modelos de razonamiento a nuevas tareas durante el post-entrenamiento, utilizando únicamente supervisión a nivel de salida, se estanca bajo el aprendizaje por refuerzo con recompensas verificables (RLVR) cuando la probabilidad inicial de éxito p_0 es pequeña. Utilizando el q-logaritmo de Tsallis, definimos una familia de funciones de pérdida J_Q que interpola entre RLVR (en q=0, el polo de explotación) y la log-verosimilitud marginal sobre las trayectorias latentes (en q=1, el polo de estimación de densidad). Todos los miembros comparten la misma dirección de gradiente por ejemplo, diferenciándose solo por una amplificación escalar P_{θ^{-q}} que repondera cada instancia de forma independiente a la tasa de aprendizaje. Esta amplificación es el mecanismo que aborda el estancamiento en el arranque en frío: bajo flujo de gradiente, el polo de explotación requiere un tiempo Ω(1/p_0) para escapar del arranque en frío, mientras que el polo de estimación de densidad escapa en Θ(log(1/p_0)); valores intermedios de q intercambian velocidad de escape contra memorización de ruido. Dado que P_θ es intratable, derivamos dos estimadores de Monte Carlo a partir de las dos factorizaciones del gradiente: RL con Gradiente Amplificado (GARL) muestrea a partir de la prior y amplifica el gradiente de RL, y Fine-Tuning con Posterior Atenuado (PAFT) remuestrea por importancia a partir de la posterior y ejecuta SFT estándar. Ambos tienen un sesgo O(q/(M P_θ^{q+1})); GARL tiene menor varianza, PAFT tiene gradientes semánticamente coherentes. En FinQA, HotPotQA y MuSiQue, GARL con q=0.75 mitiga sustancialmente el estancamiento en el arranque en frío, escapando de este cuando GRPO falla por completo. En arranque en caliente, GARL con q bajo domina en FinQA donde el entrenamiento es estable; en HotPotQA y MuSiQue, GARL se desestabiliza durante el entrenamiento, y PAFT con q=0.75 proporciona gradientes estables (mejor resultado general en HotPotQA con 47.9 maj@16, +14.4 sobre GRPO).
English
Adapting reasoning models to new tasks during post-training with only output-level supervision stalls under reinforcement learning from verifiable rewards (RLVR) when the initial success probability p_0 is small. Using the Tsallis q-logarithm, we define a loss family J_Q that interpolates between RLVR (at q{=}0, the exploitation pole) and the log-marginal-likelihood over latent trajectories (at q{=}1, the density-estimation pole). All members share the same per-example gradient direction, differing only by a scalar amplification P_{θ^{-q}} that reweights each instance independently of the learning rate. This amplification is the mechanism that addresses cold-start stalling: under gradient flow, the exploitation pole requires Ω(1{p_0}) time to escape cold start, while the density-estimation pole escapes in Θbig(log(1{p_0})big); intermediate q trades escape speed against noise memorization. Because P_θ is intractable, we derive two Monte Carlo estimators from the two factorizations of the gradient: Gradient-Amplified RL (GARL) samples from the prior and amplifies the RL gradient, and Posterior-Attenuated Fine-Tuning (PAFT) importance-resamples from the posterior and runs standard SFT. Both have bias Obig(q{M P_θ^{q+1}}big); GARL has lower variance, PAFT has semantically coherent gradients. On FinQA, HotPotQA, and MuSiQue, GARL at q{=}0.75 substantially mitigates cold-start stalling, escaping cold start where GRPO fails entirely. In warm start, GARL at low q dominates FinQA where training is stable; on HotPotQA and MuSiQue, GARL destabilizes during training, and PAFT at q{=}0.75 provides stable gradients (best overall on HotPotQA at 47.9 maj@16, +14.4 over GRPO).