Система-1.5: Рассуждения с использованием обхода в языковых и латентных пространствах через динамические сокращения
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts
May 25, 2025
Авторы: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI
Аннотация
Цепочка рассуждений (Chain-of-Thought, CoT) позволяет большим языковым моделям (LLM) выходить за рамки быстрых ответов Системы-1 и включаться в более обдуманное рассуждение Системы-2. Однако это достигается за счет значительной неэффективности, вызванной многословными промежуточными выводами. Недавние методы рассуждений в латентном пространстве повышают эффективность, работая со скрытыми состояниями без декодирования в язык, но они рассматривают все шаги одинаково, не различая ключевые выводы от вспомогательных шагов, что приводит к неоптимальному использованию вычислительных ресурсов. В данной работе мы предлагаем рассуждения Системы-1.5 — адаптивную структуру рассуждений, которая динамически распределяет вычисления между шагами через сокращенные пути в латентном пространстве. В частности, рассуждения Системы-1.5 вводят два типа динамических сокращений. Сокращение по глубине модели (DS) адаптивно рассуждает по вертикальной глубине, позволяя некритичным токенам завершаться раньше через легковесные адаптерные ветви, в то время как критичные токены продолжают проходить через более глубокие слои трансформера. Сокращение по шагам (SS) повторно использует скрытые состояния между шагами декодирования, чтобы пропускать тривиальные шаги и рассуждать горизонтально в латентном пространстве. Обучение рассуждений Системы-1.5 включает двухэтапный процесс самодистилляции: сначала дистилляция естественноязыковой CoT в непрерывное рассуждение в латентном пространстве, а затем дистилляция полного пути рассуждений Системы-2 в адаптивные сокращенные пути (рассуждения Системы-1.5). Эксперименты на задачах рассуждения демонстрируют превосходную производительность нашего метода. Например, на GSM8K рассуждения Системы-1.5 достигают качества рассуждений, сопоставимого с традиционными методами тонкой настройки CoT, при этом ускоряя вывод более чем в 20 раз и сокращая генерацию токенов в среднем на 92,31%.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move
beyond fast System-1 responses and engage in deliberative System-2 reasoning.
However, this comes at the cost of significant inefficiency due to verbose
intermediate output. Recent latent-space reasoning methods improve efficiency
by operating on hidden states without decoding into language, yet they treat
all steps uniformly, failing to distinguish critical deductions from auxiliary
steps and resulting in suboptimal use of computational resources. In this
paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that
dynamically allocates computation across reasoning steps through shortcut paths
in latent space. Specifically, System-1.5 Reasoning introduces two types of
dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the
vertical depth by early exiting non-critical tokens through lightweight adapter
branches, while allowing critical tokens to continue through deeper Transformer
layers. The step shortcut (SS) reuses hidden states across the decoding steps
to skip trivial steps and reason horizontally in latent space. Training
System-1.5 Reasoning involves a two-stage self-distillation process: first
distilling natural language CoT into latent-space continuous thought, and then
distilling full-path System-2 latent reasoning into adaptive shortcut paths
(System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior
performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves
reasoning performance comparable to traditional CoT fine-tuning methods while
accelerating inference by over 20x and reducing token generation by 92.31% on
average.Summary
AI-Generated Summary