Система-1.5: Рассуждения с использованием обхода в языковых и латентных пространствах через динамические сокращения

Аннотация

Цепочка рассуждений (Chain-of-Thought, CoT) позволяет большим языковым моделям (LLM) выходить за рамки быстрых ответов Системы-1 и включаться в более обдуманное рассуждение Системы-2. Однако это достигается за счет значительной неэффективности, вызванной многословными промежуточными выводами. Недавние методы рассуждений в латентном пространстве повышают эффективность, работая со скрытыми состояниями без декодирования в язык, но они рассматривают все шаги одинаково, не различая ключевые выводы от вспомогательных шагов, что приводит к неоптимальному использованию вычислительных ресурсов. В данной работе мы предлагаем рассуждения Системы-1.5 — адаптивную структуру рассуждений, которая динамически распределяет вычисления между шагами через сокращенные пути в латентном пространстве. В частности, рассуждения Системы-1.5 вводят два типа динамических сокращений. Сокращение по глубине модели (DS) адаптивно рассуждает по вертикальной глубине, позволяя некритичным токенам завершаться раньше через легковесные адаптерные ветви, в то время как критичные токены продолжают проходить через более глубокие слои трансформера. Сокращение по шагам (SS) повторно использует скрытые состояния между шагами декодирования, чтобы пропускать тривиальные шаги и рассуждать горизонтально в латентном пространстве. Обучение рассуждений Системы-1.5 включает двухэтапный процесс самодистилляции: сначала дистилляция естественноязыковой CoT в непрерывное рассуждение в латентном пространстве, а затем дистилляция полного пути рассуждений Системы-2 в адаптивные сокращенные пути (рассуждения Системы-1.5). Эксперименты на задачах рассуждения демонстрируют превосходную производительность нашего метода. Например, на GSM8K рассуждения Системы-1.5 достигают качества рассуждений, сопоставимого с традиционными методами тонкой настройки CoT, при этом ускоряя вывод более чем в 20 раз и сокращая генерацию токенов в среднем на 92,31%.

English

Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move beyond fast System-1 responses and engage in deliberative System-2 reasoning. However, this comes at the cost of significant inefficiency due to verbose intermediate output. Recent latent-space reasoning methods improve efficiency by operating on hidden states without decoding into language, yet they treat all steps uniformly, failing to distinguish critical deductions from auxiliary steps and resulting in suboptimal use of computational resources. In this paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that dynamically allocates computation across reasoning steps through shortcut paths in latent space. Specifically, System-1.5 Reasoning introduces two types of dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the vertical depth by early exiting non-critical tokens through lightweight adapter branches, while allowing critical tokens to continue through deeper Transformer layers. The step shortcut (SS) reuses hidden states across the decoding steps to skip trivial steps and reason horizontally in latent space. Training System-1.5 Reasoning involves a two-stage self-distillation process: first distilling natural language CoT into latent-space continuous thought, and then distilling full-path System-2 latent reasoning into adaptive shortcut paths (System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves reasoning performance comparable to traditional CoT fine-tuning methods while accelerating inference by over 20x and reducing token generation by 92.31% on average.

Система-1.5: Рассуждения с использованием обхода в языковых и латентных пространствах через динамические сокращения

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Аннотация

Support