멀티플렉스 사고: 토큰 단위 분기 및 병합을 통한 추론
Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge
January 13, 2026
저자: Yao Tang, Li Dong, Yaru Hao, Qingxiu Dong, Furu Wei, Jiatao Gu
cs.AI
초록
대규모 언어 모델은 사고의 연쇄(Chain-of-Thought, CoT) 방식을 통해 복잡한 추론 과제를 더 효과적으로 해결하지만, 길고 낮은 대역폭의 토큰 시퀀스라는 비용이 발생합니다. 이에 반해 인간은 일반적으로 가능한 다음 단계에 대한 분포를 유지하는 유연한 방식으로 추론합니다. 이러한 점에 착안하여, 우리는 확률론적 연성 추론(stochastic soft reasoning) 메커니즘인 멀티플렉스 싱킹(Multiplex Thinking)을 제안합니다. 이는 각 사고 단계마다 K개의 후보 토큰을 샘플링하고 이들의 임베딩을 단일 연속 멀티플렉스 토큰으로 집계합니다. 이는 표준 이산 생성의 어휘 임베딩 사전 분포(vocabulary embedding prior)와 샘플링 역학을 유지하면서, 멀티플렉스 롤아웃(rollout)에 대한 다루기 쉬운 확률 분포를 유도합니다. 결과적으로 멀티플렉스 트라젝토리는 온-정책 강화 학습(on-policy reinforcement learning, RL)으로 직접 최적화될 수 있습니다. 중요한 것은 멀티플렉스 싱킹이 자기 적응적(self-adaptive)이라는 점입니다. 모델이 확신을 가질 때는 멀티플렉스 토큰이 거의 이산적(discrete)이며 표준 CoT처럼 동작하고, 불확실할 때는 시퀀스 길이를 증가시키지 않으면서 여러 가능한 다음 단계를 간결하게 표현합니다. 어려운 수학 추론 벤치마크에서 멀티플렉스 싱킹은 Pass@1부터 Pass@1024에 이르기까지 강력한 이산 CoT 및 RL 베이스라인을 일관되게 능가하면서 더 짧은 시퀀스를 생성합니다. 코드와 체크포인트는 https://github.com/GMLR-Penn/Multiplex-Thinking 에서 이용할 수 있습니다.
English
Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.