ChatPaper.aiChatPaper

La Inicialización de Políticas sin Pensamiento Hace que los Modelos de Razonamiento Distilados Sean Razonadores Más Efectivos y Eficientes

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

September 30, 2025
Autores: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI

Resumen

El Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés) resuelve eficazmente tareas complejas, pero requiere longitudes de contexto extremadamente largas durante el entrenamiento, lo que conlleva costos computacionales sustanciales. Aunque el entrenamiento en múltiples etapas puede mitigar parcialmente este problema, comenzar con contextos excesivamente cortos a menudo provoca una degradación irreversible del rendimiento, lo que finalmente no logra reducir significativamente el cómputo total del entrenamiento. En este artículo, presentamos la **I**nicialización de **P**olítica **L**ibre de **P**ensamiento (**TFPI**, por sus siglas en inglés), una adaptación simple pero efectiva de RLVR que conecta la destilación de Cadenas de Pensamiento (CoT) largas con el RLVR estándar. TFPI emplea una operación *ThinkFree* sencilla, descartando explícitamente el contenido de pensamiento mediante una *</think>* directa, para reducir el uso de tokens durante la inferencia. El entrenamiento con entradas adaptadas mediante *ThinkFree* mejora el rendimiento y reduce el consumo de tokens, incluso en el modo original de pensamiento lento. Experimentos exhaustivos en varios benchmarks han demostrado que TFPI acelera la convergencia del RL, alcanza un techo de rendimiento más alto y produce modelos de razonamiento más eficientes en términos de tokens, sin necesidad de recompensas especializadas o diseños de entrenamiento complejos. Con solo TFPI, entrenamos un modelo de 4B para alcanzar un 89.0% de precisión en AIME24 y un 65.5% en LiveCodeBench utilizando menos de 4K horas de H20.
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves complex tasks but demands extremely long context lengths during training, leading to substantial computational costs. While multi-stage training can partially mitigate this, starting with overly short contexts often causes irreversible performance degradation, ultimately failing to reduce overall training compute significantly. In this paper, we introduce **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet effective adaptation to RLVR that bridges long Chain-of-Thought (CoT) distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation, explicitly discarding the thinking content via a direct *</think>* append, to reduce token usage during inference. Training with *ThinkFree*-adapted inputs improves performance and lowers token consumption, even in the original slow-thinking mode. Extensive experiments across various benchmarks have shown that TFPI accelerates RL convergence, achieves a higher performance ceiling, and yields more token-efficient reasoning models without specialized rewards or complex training designs. With TFPI only, we train a 4B model to reach 89.0% accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.
PDF261October 1, 2025