L'inizializzazione della politica senza pensiero rende i modelli di ragionamento distillati più efficaci ed efficienti nel ragionamento
Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners
September 30, 2025
Autori: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI
Abstract
Il Reinforcement Learning con Ricompensa Verificabile (RLVR) risolve efficacemente compiti complessi ma richiede contesti estremamente lunghi durante l'addestramento, portando a costi computazionali sostanziali. Sebbene l'addestramento multi-stadio possa mitigare parzialmente questo problema, iniziare con contesti eccessivamente brevi spesso causa un degrado irreversibile delle prestazioni, fallendo nel ridurre significativamente il calcolo complessivo dell'addestramento. In questo articolo, introduciamo **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), un adattamento semplice ma efficace per RLVR che collega la distillazione a lunga Catena di Pensiero (CoT) e il RLVR standard. TFPI utilizza una semplice operazione *ThinkFree*, scartando esplicitamente il contenuto di pensiero tramite un'aggiunta diretta di *</think>*, per ridurre l'uso di token durante l'inferenza. L'addestramento con input adattati *ThinkFree* migliora le prestazioni e riduce il consumo di token, anche nella modalità originale di pensiero lento. Esperimenti estesi su vari benchmark hanno dimostrato che TFPI accelera la convergenza del RL, raggiunge un limite di prestazioni più elevato e produce modelli di ragionamento più efficienti in termini di token senza ricompense specializzate o progetti di addestramento complessi. Con il solo TFPI, abbiamo addestrato un modello da 4B per raggiungere un'accuratezza dell'89,0% su AIME24 e del 65,5% su LiveCodeBench utilizzando meno di 4K ore di H20.
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves
complex tasks but demands extremely long context lengths during training,
leading to substantial computational costs. While multi-stage training can
partially mitigate this, starting with overly short contexts often causes
irreversible performance degradation, ultimately failing to reduce overall
training compute significantly. In this paper, we introduce
**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet
effective adaptation to RLVR that bridges long Chain-of-Thought (CoT)
distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation,
explicitly discarding the thinking content via a direct *</think>* append, to
reduce token usage during inference. Training with *ThinkFree*-adapted inputs
improves performance and lowers token consumption, even in the original
slow-thinking mode. Extensive experiments across various benchmarks have shown
that TFPI accelerates RL convergence, achieves a higher performance ceiling,
and yields more token-efficient reasoning models without specialized rewards or
complex training designs. With TFPI only, we train a 4B model to reach 89.0%
accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.