Pensamiento Múltiple: Razonamiento mediante Bifurcación y Fusión por Token
Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge
January 13, 2026
Autores: Yao Tang, Li Dong, Yaru Hao, Qingxiu Dong, Furu Wei, Jiatao Gu
cs.AI
Resumen
Los modelos de lenguaje grandes suelen resolver tareas de razonamiento complejo de manera más efectiva mediante el Pensamiento en Cadena (CoT), pero a costa de generar secuencias de tokens largas y de bajo ancho de banda. Los humanos, en cambio, a menudo razonan de forma flexible manteniendo una distribución sobre los siguientes pasos plausibles. Motivados por esto, proponemos Pensamiento Multiplex, un mecanismo de razonamiento flexible estocástico que, en cada paso de pensamiento, muestrea K tokens candidatos y agrega sus *embeddings* en un único token multiplex continuo. Esto preserva el *prior* de los *embeddings* del vocabulario y la dinámica de muestreo de la generación discreta estándar, a la vez que induce una distribución de probabilidad manejable sobre las secuencias multiplex. En consecuencia, las trayectorias multiplex pueden optimizarse directamente con aprendizaje por refuerzo (RL) *on-policy*. Es importante destacar que el Pensamiento Multiplex es auto-adaptativo: cuando el modelo está seguro, el token multiplex es casi discreto y se comporta como el CoT estándar; cuando está inseguro, representa de forma compacta múltiples siguientes pasos plausibles sin aumentar la longitud de la secuencia. En diversos benchmarks desafiantes de razonamiento matemático, el Pensamiento Multiplex supera consistentemente a los sólidos baselines de CoT discreto y RL, desde Pass@1 hasta Pass@1024, a la vez que produce secuencias más cortas. El código y los *checkpoints* están disponibles en https://github.com/GMLR-Penn/Multiplex-Thinking.
English
Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.