ChatPaper.aiChatPaper

Zachte Tokens, Harde Waarheden

Soft Tokens, Hard Truths

September 23, 2025
Auteurs: Natasha Butt, Ariel Kwiatkowski, Ismail Labiad, Julia Kempe, Yann Ollivier
cs.AI

Samenvatting

Het gebruik van continue in plaats van discrete tokens tijdens de Chain-of-Thought (CoT)-fase van redeneren in grote taalmodelen (LLMs) heeft recentelijk aandacht gekregen, gebaseerd op de intuïtie dat een continue mengeling van discrete tokens een superpositie van meerdere redeneerpaden tegelijk zou kunnen simuleren. Theoretische resultaten hebben formeel bewezen dat continue tokens een veel grotere expressiviteit hebben en specifieke problemen efficiënter kunnen oplossen. Het praktische gebruik van continue tokens is echter beperkt door sterke trainingsmoeilijkheden: eerdere werken gebruiken continue tokens alleen tijdens de inferentie op een vooraf getraind model met discrete tokens, of moeten de continue CoT destilleren uit grondwaarheid discrete CoTs en kampen met rekenkosten die de CoT beperken tot zeer weinig tokens. Dit is het eerste werk dat een schaalbare methode introduceert om continue CoTs te leren via reinforcement learning (RL), zonder te destilleren uit referentie discrete CoTs. We gebruiken "zachte" tokens: mengsels van tokens samen met ruis op de invoer-embedding om RL-exploratie mogelijk te maken. De rekenkundige overhead is minimaal, waardoor we continue CoTs met honderden tokens kunnen leren. Op wiskundige redeneerbenchmarks met Llama- en Qwen-modellen tot 8B presteert training met continue CoTs even goed als discrete-token CoTs voor pass@1 en overtreft ze voor pass@32, wat een grotere diversiteit in CoT laat zien. In systematische vergelijkingen blijkt het best presterende scenario te zijn om te trainen met continue CoT-tokens en vervolgens discrete tokens te gebruiken voor inferentie, wat betekent dat de "zachte" modellen op een standaard manier kunnen worden ingezet. Tot slot laten we zien dat continue CoT RL-training de voorspellingen van het basismodel beter behoudt voor taken buiten het domein, waardoor een zachtere aanpassing aan het basismodel wordt geboden.
English
The use of continuous instead of discrete tokens during the Chain-of-Thought (CoT) phase of reasoning LLMs has garnered attention recently, based on the intuition that a continuous mixture of discrete tokens could simulate a superposition of several reasoning paths simultaneously. Theoretical results have formally proven that continuous tokens have much greater expressivity and can solve specific problems more efficiently. However, practical use of continuous tokens has been limited by strong training difficulties: previous works either just use continuous tokens at inference time on a pre-trained discrete-token model, or must distill the continuous CoT from ground-truth discrete CoTs and face computational costs that limit the CoT to very few tokens. This is the first work introducing a scalable method to learn continuous CoTs via reinforcement learning (RL), without distilling from reference discrete CoTs. We use "soft" tokens: mixtures of tokens together with noise on the input embedding to provide RL exploration. Computational overhead is minimal, enabling us to learn continuous CoTs with hundreds of tokens. On math reasoning benchmarks with Llama and Qwen models up to 8B, training with continuous CoTs match discrete-token CoTs for pass@1 and surpass them for pass@32, showing greater CoT diversity. In systematic comparisons, the best-performing scenario is to train with continuous CoT tokens then use discrete tokens for inference, meaning the "soft" models can be deployed in a standard way. Finally, we show continuous CoT RL training better preserves the predictions of the base model on out-of-domain tasks, thus providing a softer touch to the base model.
PDF152September 24, 2025