À quelle vitesse un modèle doit-il s'engager envers la supervision ? Entraîner des modèles de raisonnement sur le continuum de perte de Tsallis
How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum
April 28, 2026
Auteurs: Chu-Cheng Lin, Eugene Ie
cs.AI
Résumé
L'adaptation des modèles de raisonnement à de nouvelles tâches lors du post-entraînement avec uniquement une supervision au niveau des sorties stagne sous l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) lorsque la probabilité de succès initiale p₀ est faible. En utilisant le q-logarithme de Tsallis, nous définissons une famille de pertes J_Q qui interpole entre le RLVR (à q=0, le pôle d'exploitation) et la log-vraisemblance marginale sur les trajectoires latentes (à q=1, le pôle d'estimation de densité). Tous les membres partagent la même direction de gradient par exemple, ne différant que par une amplification scalaire P_{θ^{-q}} qui repondère chaque instance indépendamment du taux d'apprentissage. Cette amplification est le mécanisme qui résout le blocage en démarrage à froid : sous un flux de gradient, le pôle d'exploitation nécessite un temps Ω(1/p₀) pour échapper au démarrage à froid, tandis que le pôle d'estimation de densité s'en échappe en Θ(log(1/p₀)) ; un q intermédiaire échange la vitesse d'échappement contre la mémorisation du bruit. Comme P_θ est intraitable, nous dérivons deux estimateurs de Monte Carlo à partir des deux factorisations du gradient : le Renforcement Amplifié par le Gradient (GARL) échantillonne à partir de l'a priori et amplifie le gradient RL, et le Fine-Tuning Atténué par la Postérieure (PAFT) rééchantillonne par importance à partir de la postérieure et exécute un SFT standard. Les deux ont un biais O(q/(M P_θ^{q+1})) ; GARL a une variance plus faible, PAFT a des gradients sémantiquement cohérents. Sur FinQA, HotPotQA et MuSiQue, GARL à q=0,75 atténue substantiellement le blocage en démarrage à froid, s'échappant du démarrage à froid là où GRPO échoue complètement. En démarrage à chaud, GARL à faible q domine sur FinQA où l'entraînement est stable ; sur HotPotQA et MuSiQue, GARL se déstabilise pendant l'entraînement, et PAFT à q=0,75 fournit des gradients stables (meilleur résultat global sur HotPotQA à 47,9 maj@16, +14,4 par rapport à GRPO).
English
Adapting reasoning models to new tasks during post-training with only output-level supervision stalls under reinforcement learning from verifiable rewards (RLVR) when the initial success probability p_0 is small. Using the Tsallis q-logarithm, we define a loss family J_Q that interpolates between RLVR (at q{=}0, the exploitation pole) and the log-marginal-likelihood over latent trajectories (at q{=}1, the density-estimation pole). All members share the same per-example gradient direction, differing only by a scalar amplification P_{θ^{-q}} that reweights each instance independently of the learning rate. This amplification is the mechanism that addresses cold-start stalling: under gradient flow, the exploitation pole requires Ω(1{p_0}) time to escape cold start, while the density-estimation pole escapes in Θbig(log(1{p_0})big); intermediate q trades escape speed against noise memorization. Because P_θ is intractable, we derive two Monte Carlo estimators from the two factorizations of the gradient: Gradient-Amplified RL (GARL) samples from the prior and amplifies the RL gradient, and Posterior-Attenuated Fine-Tuning (PAFT) importance-resamples from the posterior and runs standard SFT. Both have bias Obig(q{M P_θ^{q+1}}big); GARL has lower variance, PAFT has semantically coherent gradients. On FinQA, HotPotQA, and MuSiQue, GARL at q{=}0.75 substantially mitigates cold-start stalling, escaping cold start where GRPO fails entirely. In warm start, GARL at low q dominates FinQA where training is stable; on HotPotQA and MuSiQue, GARL destabilizes during training, and PAFT at q{=}0.75 provides stable gradients (best overall on HotPotQA at 47.9 maj@16, +14.4 over GRPO).