A Inicialização de Políticas sem Pensamento Torna Modelos de Raciocínio Destilados Mais Eficazes e Eficientes como Raciocinadores
Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners
September 30, 2025
Autores: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI
Resumo
O Aprendizado por Reforço com Recompensa Verificável (RLVR) resolve efetivamente tarefas complexas, mas exige contextos extremamente longos durante o treinamento, resultando em custos computacionais substanciais. Embora o treinamento em múltiplos estágios possa mitigar parcialmente isso, iniciar com contextos excessivamente curtos frequentemente causa degradação irreversível no desempenho, falhando em reduzir significativamente o custo total de treinamento. Neste artigo, introduzimos a **I**nicialização de **P**olítica **L**ivre de **P**ensamento (**TFPI**), uma adaptação simples, porém eficaz, ao RLVR que conecta a destilação de Cadeia de Pensamento (CoT) longa ao RLVR padrão. A TFPI emprega uma operação *ThinkFree* simples, descartando explicitamente o conteúdo de pensamento por meio de uma anexação direta *</think>*, para reduzir o uso de tokens durante a inferência. O treinamento com entradas adaptadas ao *ThinkFree* melhora o desempenho e reduz o consumo de tokens, mesmo no modo original de pensamento lento. Experimentos extensos em diversos benchmarks mostraram que a TFPI acelera a convergência do RL, alcança um teto de desempenho mais alto e produz modelos de raciocínio mais eficientes em termos de tokens, sem a necessidade de recompensas especializadas ou designs de treinamento complexos. Com apenas a TFPI, treinamos um modelo de 4B para atingir 89,0% de precisão no AIME24 e 65,5% no LiveCodeBench, utilizando menos de 4K horas de H20.
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves
complex tasks but demands extremely long context lengths during training,
leading to substantial computational costs. While multi-stage training can
partially mitigate this, starting with overly short contexts often causes
irreversible performance degradation, ultimately failing to reduce overall
training compute significantly. In this paper, we introduce
**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet
effective adaptation to RLVR that bridges long Chain-of-Thought (CoT)
distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation,
explicitly discarding the thinking content via a direct *</think>* append, to
reduce token usage during inference. Training with *ThinkFree*-adapted inputs
improves performance and lowers token consumption, even in the original
slow-thinking mode. Extensive experiments across various benchmarks have shown
that TFPI accelerates RL convergence, achieves a higher performance ceiling,
and yields more token-efficient reasoning models without specialized rewards or
complex training designs. With TFPI only, we train a 4B model to reach 89.0%
accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.