Pensamento Multiplexo: Raciocínio via Ramificação e Fusão Token a Token

Resumo

Os modelos de linguagem grandes frequentemente resolvem tarefas de raciocínio complexo de forma mais eficaz com a Cadeia de Pensamento (CoT), mas ao custo de sequências longas de tokens com baixa largura de banda. Em contraste, os humanos frequentemente raciocinam de forma "soft" (suave/probabilística) mantendo uma distribuição sobre os próximos passos plausíveis. Motivados por isso, propomos o Pensamento Multiplex, um mecanismo estocástico de raciocínio soft que, a cada passo do pensamento, amostra K tokens candidatos e agrega seus *embeddings* em um único token contínuo multiplex. Isso preserva o *prior* do *embedding* do vocabulário e a dinâmica de amostragem da geração discreta padrão, ao mesmo tempo que induz uma distribuição de probabilidade tratável sobre os *rollouts* multiplex. Consequentemente, as trajetórias multiplex podem ser otimizadas diretamente com Aprendizado por Reforço (RL) *on-policy*. É importante destacar que o Pensamento Multiplex é auto-adaptativo: quando o modelo está confiante, o token multiplex é quase discreto e se comporta como a CoT padrão; quando está incerto, representa de forma compacta múltiplos próximos passos plausíveis sem aumentar o comprimento da sequência. Em *benchmarks* desafiadores de raciocínio matemático, o Pensamento Multiplex supera consistentemente as fortes *baselines* de CoT discreta e RL, desde Pass@1 até Pass@1024, ao mesmo tempo que produz sequências mais curtas. O código e os *checkpoints* estão disponíveis em https://github.com/GMLR-Penn/Multiplex-Thinking.

English

Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.