Pensée multiplexe : raisonnement par branchement et fusion au niveau des tokens

papers.abstract

Les grands modèles de langage résolvent souvent les tâches de raisonnement complexe plus efficacement avec la pensée en chaîne (Chain-of-Thought, CoT), mais au prix de longues séquences de tokens à faible débit. En revanche, les humains raisonnent souvent de manière probabiliste en maintenant une distribution sur les prochaines étapes plausibles. Motivés par cette observation, nous proposons la Pensée Multiplexe, un mécanisme de raisonnement probabiliste stochastique qui, à chaque étape de réflexion, échantillonne K tokens candidats et agrège leurs plongements en un seul token multiplexe continu. Cette approche préserve l'a priori du plongement lexical et la dynamique d'échantillonnage de la génération discrète standard, tout en induisant une distribution de probabilité traitable sur les déploiements multiplexes. Par conséquent, les trajectoires multiplexes peuvent être optimisées directement par apprentissage par renforcement (RL) sur la politique. Fait important, la Pensée Multiplexe est auto-adaptative : lorsque le modèle est confiant, le token multiplexe est presque discret et se comporte comme la CoT standard ; lorsqu'il est incertain, il représente de manière compacte plusieurs étapes suivantes plausibles sans augmenter la longueur de la séquence. Sur divers benchmarks de raisonnement mathématique exigeants, la Pensée Multiplexe surpasse systématiquement les solides bases de référence en CoT discrète et RL, de Pass@1 à Pass@1024, tout en produisant des séquences plus courtes. Le code et les points de contrôle sont disponibles à l'adresse https://github.com/GMLR-Penn/Multiplex-Thinking.

English

Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.

Pensée multiplexe : raisonnement par branchement et fusion au niveau des tokens

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

papers.abstract

Support