Мультиплексное мышление: рассуждение через поблочное ветвление и слияние

Аннотация

Крупные языковые модели часто эффективнее решают сложные задачи рассуждений с помощью метода "цепочки мыслей" (CoT), однако ценой длинных низкопропускных последовательностей токенов. В отличие от этого, люди часто рассуждают "мягко", поддерживая распределение вероятностей над правдоподобными следующими шагами. Мотивируясь этим, мы предлагаем метод "мультиплексного мышления" — стохастический механизм мягкого рассуждения, который на каждом шаге мышления выбирает K кандидатных токенов и агрегирует их эмбеддинги в единый непрерывный мультиплексный токен. Это сохраняет априорное распределение эмбеддингов словаря и динамику выборки стандартной дискретной генерации, одновременно создавая управляемое распределение вероятностей над мультиплексными сценариями. Как следствие, мультиплексные траектории можно напрямую оптимизировать с помощью обучения с подкреплением (RL) на основе стратегии. Важно, что мультиплексное мышление самоадаптивно: когда модель уверена, мультиплексный токен почти дискретен и ведет себя как стандартный CoT; когда она не уверена, он компактно представляет несколько правдоподобных следующих шагов без увеличения длины последовательности. На сложных benchmarks математических рассуждений мультиплексное мышление стабильно превосходит сильные базовые методы дискретного CoT и RL от Pass@1 до Pass@1024, при этом генерируя более короткие последовательности. Код и контрольные точки доступны по адресу https://github.com/GMLR-Penn/Multiplex-Thinking.

English

Large language models often solve complex reasoning tasks more effectively with Chain-of-Thought (CoT), but at the cost of long, low-bandwidth token sequences. Humans, by contrast, often reason softly by maintaining a distribution over plausible next steps. Motivated by this, we propose Multiplex Thinking, a stochastic soft reasoning mechanism that, at each thinking step, samples K candidate tokens and aggregates their embeddings into a single continuous multiplex token. This preserves the vocabulary embedding prior and the sampling dynamics of standard discrete generation, while inducing a tractable probability distribution over multiplex rollouts. Consequently, multiplex trajectories can be directly optimized with on-policy reinforcement learning (RL). Importantly, Multiplex Thinking is self-adaptive: when the model is confident, the multiplex token is nearly discrete and behaves like standard CoT; when it is uncertain, it compactly represents multiple plausible next steps without increasing sequence length. Across challenging math reasoning benchmarks, Multiplex Thinking consistently outperforms strong discrete CoT and RL baselines from Pass@1 through Pass@1024, while producing shorter sequences. The code and checkpoints are available at https://github.com/GMLR-Penn/Multiplex-Thinking.

Мультиплексное мышление: рассуждение через поблочное ветвление и слияние

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Аннотация

Support