思考フリーなポリシー初期化が蒸留推論モデルを より効果的かつ効率的な推論器にする
Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners
September 30, 2025
著者: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI
要旨
検証可能な報酬を伴う強化学習(RLVR)は複雑なタスクを効果的に解決するが、トレーニング中に極めて長いコンテキスト長を必要とし、その結果、多大な計算コストが発生する。多段階トレーニングはこれを部分的に緩和できるが、過度に短いコンテキストから始めると、しばしば不可逆的な性能低下を引き起こし、最終的には全体のトレーニング計算量を大幅に削減することができない。本論文では、**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**)を紹介する。これは、長いChain-of-Thought(CoT)蒸留と標準的なRLVRを橋渡しする、シンプルでありながら効果的なRLVRへの適応手法である。TFPIは、シンプルな*ThinkFree*操作を用いて、思考内容を明示的に破棄し、直接的な*</think>*追加を通じて推論中のトークン使用量を削減する。*ThinkFree*適応された入力でのトレーニングは、元の低速思考モードにおいても性能を向上させ、トークン消費量を低減する。様々なベンチマークでの広範な実験により、TFPIがRLの収束を加速し、より高い性能上限を達成し、特殊な報酬や複雑なトレーニング設計なしに、よりトークン効率の高い推論モデルを生成することが示された。TFPIのみを用いて、4Bモデルをトレーニングし、AIME24で89.0%、LiveCodeBenchで65.5%の精度を達成し、4K H20時間未満でこれを実現した。
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves
complex tasks but demands extremely long context lengths during training,
leading to substantial computational costs. While multi-stage training can
partially mitigate this, starting with overly short contexts often causes
irreversible performance degradation, ultimately failing to reduce overall
training compute significantly. In this paper, we introduce
**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet
effective adaptation to RLVR that bridges long Chain-of-Thought (CoT)
distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation,
explicitly discarding the thinking content via a direct *</think>* append, to
reduce token usage during inference. Training with *ThinkFree*-adapted inputs
improves performance and lowers token consumption, even in the original
slow-thinking mode. Extensive experiments across various benchmarks have shown
that TFPI accelerates RL convergence, achieves a higher performance ceiling,
and yields more token-efficient reasoning models without specialized rewards or
complex training designs. With TFPI only, we train a 4B model to reach 89.0%
accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.