ChatPaper.aiChatPaper

L'initialisation sans réflexion des politiques rend les modèles de raisonnement distillés plus efficaces et plus performants en tant que raisonneurs.

Thinking-Free Policy Initialization Makes Distilled Reasoning Models More Effective and Efficient Reasoners

September 30, 2025
papers.authors: Xin Xu, Cliveb AI, Kai Yang, Tianhao Chen, Yang Wang, Saiyong Yang, Can Yang
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompense vérifiable (RLVR) résout efficacement des tâches complexes, mais nécessite des contextes extrêmement longs pendant l'entraînement, entraînant des coûts de calcul substantiels. Bien qu'un entraînement multi-étapes puisse partiellement atténuer ce problème, commencer avec des contextes trop courts provoque souvent une dégradation irréversible des performances, ne parvenant finalement pas à réduire significativement le calcul global de l'entraînement. Dans cet article, nous introduisons l'**I**nitialisation de **P**olitique **S**ans **R**éflexion (**TFPI**), une adaptation simple mais efficace du RLVR qui relie la distillation en chaîne de pensée (CoT) longue et le RLVR standard. TFPI utilise une opération *SansRéflexion* simple, rejetant explicitement le contenu de réflexion via un ajout direct *</think>*, pour réduire l'utilisation de tokens pendant l'inférence. L'entraînement avec des entrées adaptées *SansRéflexion* améliore les performances et réduit la consommation de tokens, même dans le mode de réflexion lente d'origine. Des expériences approfondies sur divers benchmarks ont montré que TFPI accélère la convergence du RL, atteint un plafond de performance plus élevé et produit des modèles de raisonnement plus efficaces en tokens sans récompenses spécialisées ou conceptions d'entraînement complexes. Avec TFPI uniquement, nous avons entraîné un modèle de 4B pour atteindre 89,0 % de précision sur AIME24 et 65,5 % sur LiveCodeBench en utilisant moins de 4 000 heures H20.
English
Reinforcement Learning with Verifiable Reward (RLVR) effectively solves complex tasks but demands extremely long context lengths during training, leading to substantial computational costs. While multi-stage training can partially mitigate this, starting with overly short contexts often causes irreversible performance degradation, ultimately failing to reduce overall training compute significantly. In this paper, we introduce **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), a simple yet effective adaptation to RLVR that bridges long Chain-of-Thought (CoT) distillation and standard RLVR. TFPI employs a simple *ThinkFree* operation, explicitly discarding the thinking content via a direct *</think>* append, to reduce token usage during inference. Training with *ThinkFree*-adapted inputs improves performance and lowers token consumption, even in the original slow-thinking mode. Extensive experiments across various benchmarks have shown that TFPI accelerates RL convergence, achieves a higher performance ceiling, and yields more token-efficient reasoning models without specialized rewards or complex training designs. With TFPI only, we train a 4B model to reach 89.0% accuracy on AIME24 and 65.5% on LiveCodeBench using less than 4K H20 hours.
PDF261October 1, 2025