ChatPaper.aiChatPaper

사고 없는 정책 초기화는 추론 모델의 증류를 더 효과적이고 효율적인 추론자로 만든다

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

September 30, 2025
저자: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 복잡한 작업을 효과적으로 해결하지만, 훈련 중에 매우 긴 컨텍스트 길이를 요구하여 상당한 계산 비용을 초래합니다. 다단계 훈련이 이를 부분적으로 완화할 수 있지만, 지나치게 짧은 컨텍스트로 시작하면 종종 되돌릴 수 없는 성능 저하를 일으켜 전체 훈련 계산량을 크게 줄이지 못합니다. 본 논문에서는 **T**hinking-**F**ree **P**olicy **I**nitialization(**TFPI**)을 소개합니다. 이는 긴 사고 연쇄(CoT) 증류와 표준 RLVR을 연결하는 간단하면서도 효과적인 RLVR 적응 방법입니다. TFPI는 간단한 *ThinkFree* 연산을 사용하여 사고 내용을 명시적으로 버리고 직접적인 *</think>* 추가를 통해 추론 중 토큰 사용량을 줄입니다. *ThinkFree*로 적응된 입력으로 훈련하면 성능이 향상되고 토큰 소비가 줄어들며, 원래의 느린 사고 모드에서도 이러한 이점이 유지됩니다. 다양한 벤치마크에서의 광범위한 실험을 통해 TFPI가 RL 수렴을 가속화하고 더 높은 성능 한계를 달성하며, 특수한 보상이나 복잡한 훈련 설계 없이도 토큰 효율적인 추론 모델을 생성함을 보여주었습니다. TFPI만을 사용하여 4B 모델을 훈련시켜 AIME24에서 89.0%, LiveCodeBench에서 65.5%의 정확도를 달성했으며, 이는 4K H20 시간 미만으로 이루어졌습니다.
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves complex tasks but demands extremely long context lengths during training, leading to substantial computational costs. While multi-stage training can partially mitigate this, starting with overly short contexts often causes irreversible performance degradation, ultimately failing to reduce overall training compute significantly. In this paper, we introduce **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet effective adaptation to RLVR that bridges long Chain-of-Thought (CoT) distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation, explicitly discarding the thinking content via a direct *</think>* append, to reduce token usage during inference. Training with *ThinkFree*-adapted inputs improves performance and lowers token consumption, even in the original slow-thinking mode. Extensive experiments across various benchmarks have shown that TFPI accelerates RL convergence, achieves a higher performance ceiling, and yields more token-efficient reasoning models without specialized rewards or complex training designs. With TFPI only, we train a 4B model to reach 89.0% accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.
PDF251October 1, 2025