Jetons logiciels, vérités tangibles
Soft Tokens, Hard Truths
September 23, 2025
papers.authors: Natasha Butt, Ariel Kwiatkowski, Ismail Labiad, Julia Kempe, Yann Ollivier
cs.AI
papers.abstract
L'utilisation de tokens continus au lieu de tokens discrets pendant la phase de raisonnement en Chaîne de Pensée (CoT) des LLM a récemment suscité l'attention, reposant sur l'intuition qu'un mélange continu de tokens discrets pourrait simuler une superposition de plusieurs chemins de raisonnement simultanément. Des résultats théoriques ont formellement démontré que les tokens continus offrent une expressivité bien plus grande et peuvent résoudre certains problèmes de manière plus efficace. Cependant, l'utilisation pratique des tokens continus a été limitée par des difficultés importantes d'entraînement : les travaux précédents se contentent soit d'utiliser des tokens continus uniquement lors de l'inférence sur un modèle pré-entraîné avec des tokens discrets, soit doivent distiller la CoT continue à partir de CoT discrètes de référence, ce qui engendre des coûts computationnels limitant la CoT à un très petit nombre de tokens.
Ce travail est le premier à introduire une méthode scalable pour apprendre des CoT continues via l'apprentissage par renforcement (RL), sans distillation à partir de CoT discrètes de référence. Nous utilisons des tokens "mous" : des mélanges de tokens accompagnés de bruit sur l'embedding d'entrée pour permettre l'exploration en RL. La surcharge computationnelle est minimale, ce qui nous permet d'apprendre des CoT continues avec des centaines de tokens. Sur des benchmarks de raisonnement mathématique avec des modèles Llama et Qwen allant jusqu'à 8B, l'entraînement avec des CoT continues atteint des performances équivalentes à celles des CoT à tokens discrets pour le pass@1 et les dépasse pour le pass@32, montrant une plus grande diversité des CoT. Dans des comparaisons systématiques, le scénario le plus performant consiste à entraîner avec des tokens CoT continus puis à utiliser des tokens discrets pour l'inférence, ce qui signifie que les modèles "mous" peuvent être déployés de manière standard. Enfin, nous montrons que l'entraînement RL avec des CoT continues préserve mieux les prédictions du modèle de base sur des tâches hors domaine, offrant ainsi une approche plus douce pour le modèle de base.
English
The use of continuous instead of discrete tokens during the Chain-of-Thought
(CoT) phase of reasoning LLMs has garnered attention recently, based on the
intuition that a continuous mixture of discrete tokens could simulate a
superposition of several reasoning paths simultaneously. Theoretical results
have formally proven that continuous tokens have much greater expressivity and
can solve specific problems more efficiently. However, practical use of
continuous tokens has been limited by strong training difficulties: previous
works either just use continuous tokens at inference time on a pre-trained
discrete-token model, or must distill the continuous CoT from ground-truth
discrete CoTs and face computational costs that limit the CoT to very few
tokens.
This is the first work introducing a scalable method to learn continuous CoTs
via reinforcement learning (RL), without distilling from reference discrete
CoTs. We use "soft" tokens: mixtures of tokens together with noise on the input
embedding to provide RL exploration. Computational overhead is minimal,
enabling us to learn continuous CoTs with hundreds of tokens. On math reasoning
benchmarks with Llama and Qwen models up to 8B, training with continuous CoTs
match discrete-token CoTs for pass@1 and surpass them for pass@32, showing
greater CoT diversity. In systematic comparisons, the best-performing scenario
is to train with continuous CoT tokens then use discrete tokens for inference,
meaning the "soft" models can be deployed in a standard way. Finally, we show
continuous CoT RL training better preserves the predictions of the base model
on out-of-domain tasks, thus providing a softer touch to the base model.