ChatPaper.aiChatPaper

思考フリーなポリシー初期化が蒸留推論モデルを より効果的かつ効率的な推論器にする

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

September 30, 2025
著者: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI

要旨

検証可能な報酬を伴う強化学習(RLVR)は複雑なタスクを効果的に解決するが、トレーニング中に極めて長いコンテキスト長を必要とし、その結果、多大な計算コストが発生する。多段階トレーニングはこれを部分的に緩和できるが、過度に短いコンテキストから始めると、しばしば不可逆的な性能低下を引き起こし、最終的には全体のトレーニング計算量を大幅に削減することができない。本論文では、**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**)を紹介する。これは、長いChain-of-Thought(CoT)蒸留と標準的なRLVRを橋渡しする、シンプルでありながら効果的なRLVRへの適応手法である。TFPIは、シンプルな*ThinkFree*操作を用いて、思考内容を明示的に破棄し、直接的な*</think>*追加を通じて推論中のトークン使用量を削減する。*ThinkFree*適応された入力でのトレーニングは、元の低速思考モードにおいても性能を向上させ、トークン消費量を低減する。様々なベンチマークでの広範な実験により、TFPIがRLの収束を加速し、より高い性能上限を達成し、特殊な報酬や複雑なトレーニング設計なしに、よりトークン効率の高い推論モデルを生成することが示された。TFPIのみを用いて、4Bモデルをトレーニングし、AIME24で89.0%、LiveCodeBenchで65.5%の精度を達成し、4K H20時間未満でこれを実現した。
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves complex tasks but demands extremely long context lengths during training, leading to substantial computational costs. While multi-stage training can partially mitigate this, starting with overly short contexts often causes irreversible performance degradation, ultimately failing to reduce overall training compute significantly. In this paper, we introduce **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet effective adaptation to RLVR that bridges long Chain-of-Thought (CoT) distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation, explicitly discarding the thinking content via a direct *</think>* append, to reduce token usage during inference. Training with *ThinkFree*-adapted inputs improves performance and lowers token consumption, even in the original slow-thinking mode. Extensive experiments across various benchmarks have shown that TFPI accelerates RL convergence, achieves a higher performance ceiling, and yields more token-efficient reasoning models without specialized rewards or complex training designs. With TFPI only, we train a 4B model to reach 89.0% accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.
PDF261October 1, 2025