Wie schnell sollte ein Modell sich auf Supervision festlegen? Training von Reasoning-Modellen auf dem Tsallis-Verlust-Kontinuum

Zusammenfassung

Die Anpassung von Reasoning-Modellen an neue Aufgaben während des Post-Trainings mit ausschließlich Output-level-Supervision kommt beim Reinforcement Learning from Verifiable Rewards (RLVR) zum Erliegen, wenn die anfängliche Erfolgswahrscheinlichkeit p_0 gering ist. Unter Verwendung des Tsallis-q-Logarithmus definieren wir eine Verlustfunktionsfamilie J_Q, die zwischen RLVR (bei q=0, dem Ausbeutungspol) und der logarithmischen Randwahrscheinlichkeit über latente Trajektorien (bei q=1, dem Dichteschätzungspol) interpoliert. Alle Mitglieder teilen die gleiche Gradientenrichtung pro Beispiel und unterscheiden sich nur durch eine skalare Verstärkung P_{θ^{-q}}, die jede Instanz unabhängig von der Lernrate neu gewichtet. Diese Verstärkung ist der Mechanismus, der das Cold-Start-Problem adressiert: Unter Gradient Flow benötigt der Ausbeutungspol Ω(1/p_0) Zeit, um den kalten Start zu überwinden, während der Dichteschätzungspol dies in Θ(log(1/p_0)) schafft; intermediäres q tauscht Fluchtgeschwindigkeit gegen Rauschen-Memorisierung. Da P_θ intraktabel ist, leiten wir zwei Monte-Carlo-Schätzer aus den beiden Faktorisierungen des Gradienten ab: Gradient-Amplified RL (GARL) sampelt aus der A-priori-Verteilung und verstärkt den RL-Gradienten, während Posterior-Attenuated Fine-Tuning (PAFT) Importance-Sampling aus der A-posteriori-Verteilung durchführt und Standard-SFT anwendet. Beide weisen einen Bias von O(q/(M P_θ^{q+1})) auf; GARL hat eine geringere Varianz, PAFT liefert semantisch kohärente Gradienten. Auf FinQA, HotPotQA und MuSiQue mildert GARL bei q=0,75 das Cold-Start-Problem erheblich und entkommt dem kalten Start, wo GRPO vollständig versagt. Bei Warm Start dominiert GARL mit niedrigem q auf FinQA, wo das Training stabil verläuft; auf HotPotQA und MuSiQue destabilisiert GARL während des Trainings, und PAFT bei q=0,75 liefert stabile Gradienten (beste Gesamtleistung auf HotPotQA mit 47,9 maj@16, +14,4 gegenüber GRPO).

English

Adapting reasoning models to new tasks during post-training with only output-level supervision stalls under reinforcement learning from verifiable rewards (RLVR) when the initial success probability p_0 is small. Using the Tsallis q-logarithm, we define a loss family J_Q that interpolates between RLVR (at q{=}0, the exploitation pole) and the log-marginal-likelihood over latent trajectories (at q{=}1, the density-estimation pole). All members share the same per-example gradient direction, differing only by a scalar amplification P_{θ^{-q}} that reweights each instance independently of the learning rate. This amplification is the mechanism that addresses cold-start stalling: under gradient flow, the exploitation pole requires Ω(1{p_0}) time to escape cold start, while the density-estimation pole escapes in Θbig(log(1{p_0})big); intermediate q trades escape speed against noise memorization. Because P_θ is intractable, we derive two Monte Carlo estimators from the two factorizations of the gradient: Gradient-Amplified RL (GARL) samples from the prior and amplifies the RL gradient, and Posterior-Attenuated Fine-Tuning (PAFT) importance-resamples from the posterior and runs standard SFT. Both have bias Obig(q{M P_θ^{q+1}}big); GARL has lower variance, PAFT has semantically coherent gradients. On FinQA, HotPotQA, and MuSiQue, GARL at q{=}0.75 substantially mitigates cold-start stalling, escaping cold start where GRPO fails entirely. In warm start, GARL at low q dominates FinQA where training is stable; on HotPotQA and MuSiQue, GARL destabilizes during training, and PAFT at q{=}0.75 provides stable gradients (best overall on HotPotQA at 47.9 maj@16, +14.4 over GRPO).

Wie schnell sollte ein Modell sich auf Supervision festlegen? Training von Reasoning-Modellen auf dem Tsallis-Verlust-Kontinuum

How Fast Should a Model Commit to Supervision? Training Reasoning Models on the Tsallis Loss Continuum

Zusammenfassung

Support