Инициализация политики без предварительного обдумывания повышает эффективность и производительность моделей рассуждений, обученных методом дистилляции
Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners
September 30, 2025
Авторы: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI
Аннотация
Обучение с подкреплением с верифицируемой наградой (RLVR) эффективно решает сложные задачи, но требует чрезвычайно длинных контекстов во время обучения, что приводит к значительным вычислительным затратам. Хотя многоэтапное обучение может частично смягчить эту проблему, начало с излишне коротких контекстов часто вызывает необратимое ухудшение производительности, в конечном итоге не позволяя существенно сократить общие вычислительные затраты на обучение. В данной работе мы представляем **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), простое, но эффективное адаптивное решение для RLVR, которое объединяет длинную дистилляцию цепочки рассуждений (CoT) и стандартный RLVR. TFPI использует простую операцию *ThinkFree*, явно отбрасывая содержание рассуждений с помощью прямого добавления *</think>*, чтобы сократить использование токенов во время вывода. Обучение с адаптированными входами *ThinkFree* улучшает производительность и снижает потребление токенов, даже в исходном режиме медленного мышления. Многочисленные эксперименты на различных бенчмарках показали, что TFPI ускоряет сходимость RL, достигает более высокого потолка производительности и создает более эффективные модели рассуждений без специализированных наград или сложных схем обучения. Только с использованием TFPI мы обучили модель на 4 миллиарда параметров, достигнув точности 89,0% на AIME24 и 65,5% на LiveCodeBench, затратив менее 4000 часов на H20.
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves
complex tasks but demands extremely long context lengths during training,
leading to substantial computational costs. While multi-stage training can
partially mitigate this, starting with overly short contexts often causes
irreversible performance degradation, ultimately failing to reduce overall
training compute significantly. In this paper, we introduce
**T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet
effective adaptation to RLVR that bridges long Chain-of-Thought (CoT)
distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation,
explicitly discarding the thinking content via a direct *</think>* append, to
reduce token usage during inference. Training with *ThinkFree*-adapted inputs
improves performance and lowers token consumption, even in the original
slow-thinking mode. Extensive experiments across various benchmarks have shown
that TFPI accelerates RL convergence, achieves a higher performance ceiling,
and yields more token-efficient reasoning models without specialized rewards or
complex training designs. With TFPI only, we train a 4B model to reach 89.0%
accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.