Pensiero Multiplex: Ragionamento tramite Ramificazione e Fusione Token per Token

Abstract

I modelli linguistici di grandi dimensioni spesso risolvono compiti di ragionamento complesso in modo più efficace utilizzando la Catena del Pensiero (CoT), ma al costo di sequenze di token lunghe e a bassa larghezza di banda. Al contrario, gli esseri umani spesso ragionano in modo "soft" mantenendo una distribuzione sui passi successivi plausibili. Motivati da questo, proponiamo il Pensiero Multiplex, un meccanismo stocastico di ragionamento soft che, ad ogni passo di pensiero, campiona K token candidati e aggrega i loro embedding in un singolo token multiplex continuo. Ciò preserva il prior degli embedding del vocabolario e la dinamica di campionamento della generazione discreta standard, inducendo al contempo una distribuzione di probabilità trattabile sui rollout multiplex. Di conseguenza, le traiettorie multiplex possono essere ottimizzate direttamente con l'apprendimento per rinforzo (RL) on-policy. È importante sottolineare che il Pensiero Multiplex è auto-adattivo: quando il modello è confidente, il token multiplex è quasi discreto e si comporta come una CoT standard; quando è incerto, rappresenta in modo compatto molteplici passi successivi plausibili senza aumentare la lunghezza della sequenza. Su benchmark impegnativi di ragionamento matematico, il Pensiero Multiplex supera costantemente i solidi baseline di CoT discreta e RL da Pass@1 a Pass@1024, producendo al contempo sequenze più brevi. Il codice e i checkpoint sono disponibili all'indirizzo https://github.com/GMLR-Penn/Multiplex-Thinking.

English

Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.

Pensiero Multiplex: Ragionamento tramite Ramificazione e Fusione Token per Token

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Abstract

Support