ChatPaper.aiChatPaper

Raciocínio System-1.5: Travessia nos Espaços de Linguagem e Latentes com Atalhos Dinâmicos

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

May 25, 2025
Autores: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI

Resumo

O raciocínio em cadeia de pensamento (Chain-of-thought, CoT) permite que grandes modelos de linguagem (LLMs) vão além das respostas rápidas do Sistema 1 e se envolvam em raciocínios deliberativos do Sistema 2. No entanto, isso ocorre com o custo de uma ineficiência significativa devido à saída intermediária verbosa. Métodos recentes de raciocínio no espaço latente melhoram a eficiência ao operar em estados ocultos sem decodificação em linguagem, mas tratam todas as etapas de forma uniforme, falhando em distinguir deduções críticas de etapas auxiliares, resultando em um uso subótimo de recursos computacionais. Neste artigo, propomos o Raciocínio do Sistema 1.5, um framework de raciocínio adaptativo que aloca dinamicamente a computação entre as etapas de raciocínio por meio de caminhos curtos no espaço latente. Especificamente, o Raciocínio do Sistema 1.5 introduz dois tipos de atalhos dinâmicos. O atalho de profundidade do modelo (DS) raciocina adaptativamente ao longo da profundidade vertical, saindo precocemente de tokens não críticos por meio de ramificações leves de adaptação, enquanto permite que tokens críticos continuem por camadas mais profundas do Transformer. O atalho de etapa (SS) reutiliza estados ocultos entre as etapas de decodificação para pular etapas triviais e raciocinar horizontalmente no espaço latente. O treinamento do Raciocínio do Sistema 1.5 envolve um processo de auto-distilação em duas etapas: primeiro, destilando o CoT em linguagem natural para pensamento contínuo no espaço latente, e depois destilando o raciocínio latente do Sistema 2 de caminho completo em caminhos curtos adaptativos (Raciocínio do Sistema 1.5). Experimentos em tarefas de raciocínio demonstram o desempenho superior do nosso método. Por exemplo, no GSM8K, o Raciocínio do Sistema 1.5 alcança desempenho de raciocínio comparável aos métodos tradicionais de ajuste fino com CoT, enquanto acelera a inferência em mais de 20x e reduz a geração de tokens em 92,31% em média.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move beyond fast System-1 responses and engage in deliberative System-2 reasoning. However, this comes at the cost of significant inefficiency due to verbose intermediate output. Recent latent-space reasoning methods improve efficiency by operating on hidden states without decoding into language, yet they treat all steps uniformly, failing to distinguish critical deductions from auxiliary steps and resulting in suboptimal use of computational resources. In this paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that dynamically allocates computation across reasoning steps through shortcut paths in latent space. Specifically, System-1.5 Reasoning introduces two types of dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the vertical depth by early exiting non-critical tokens through lightweight adapter branches, while allowing critical tokens to continue through deeper Transformer layers. The step shortcut (SS) reuses hidden states across the decoding steps to skip trivial steps and reason horizontally in latent space. Training System-1.5 Reasoning involves a two-stage self-distillation process: first distilling natural language CoT into latent-space continuous thought, and then distilling full-path System-2 latent reasoning into adaptive shortcut paths (System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves reasoning performance comparable to traditional CoT fine-tuning methods while accelerating inference by over 20x and reducing token generation by 92.31% on average.
PDF122December 11, 2025