Raisonnement Système-1.5 : Parcours dans les espaces linguistiques et latents avec des raccourcis dynamiques
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts
May 25, 2025
Auteurs: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI
Résumé
Le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) permet aux grands modèles de langage (LLMs) de dépasser les réponses rapides du Système 1 et de s’engager dans un raisonnement délibératif du Système 2. Cependant, cela se fait au prix d’une inefficacité significative due à la production verbale d’étapes intermédiaires. Les méthodes récentes de raisonnement dans l’espace latent améliorent l’efficacité en opérant sur les états cachés sans décodage en langage, mais elles traitent toutes les étapes de manière uniforme, ne distinguant pas les déductions critiques des étapes auxiliaires, ce qui entraîne une utilisation sous-optimale des ressources computationnelles. Dans cet article, nous proposons le raisonnement Système-1.5, un cadre de raisonnement adaptatif qui alloue dynamiquement les calculs à travers les étapes de raisonnement via des chemins raccourcis dans l’espace latent. Plus précisément, le raisonnement Système-1.5 introduit deux types de raccourcis dynamiques. Le raccourci de profondeur du modèle (DS) raisonne de manière adaptative le long de la profondeur verticale en sortant précocement les tokens non critiques via des branches d’adaptation légères, tout en permettant aux tokens critiques de continuer à travers les couches plus profondes du Transformer. Le raccourci d’étape (SS) réutilise les états cachés à travers les étapes de décodage pour sauter les étapes triviales et raisonner horizontalement dans l’espace latent. L’entraînement du raisonnement Système-1.5 implique un processus d’auto-distillation en deux étapes : d’abord, distiller le CoT en langage naturel en une pensée continue dans l’espace latent, puis distiller le raisonnement latent complet du Système 2 en chemins raccourcis adaptatifs (raisonnement Système-1.5). Les expériences sur des tâches de raisonnement démontrent la performance supérieure de notre méthode. Par exemple, sur GSM8K, le raisonnement Système-1.5 atteint une performance de raisonnement comparable aux méthodes traditionnelles de fine-tuning CoT tout en accélérant l’inférence de plus de 20 fois et en réduisant la génération de tokens de 92,31 % en moyenne.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move
beyond fast System-1 responses and engage in deliberative System-2 reasoning.
However, this comes at the cost of significant inefficiency due to verbose
intermediate output. Recent latent-space reasoning methods improve efficiency
by operating on hidden states without decoding into language, yet they treat
all steps uniformly, failing to distinguish critical deductions from auxiliary
steps and resulting in suboptimal use of computational resources. In this
paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that
dynamically allocates computation across reasoning steps through shortcut paths
in latent space. Specifically, System-1.5 Reasoning introduces two types of
dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the
vertical depth by early exiting non-critical tokens through lightweight adapter
branches, while allowing critical tokens to continue through deeper Transformer
layers. The step shortcut (SS) reuses hidden states across the decoding steps
to skip trivial steps and reason horizontally in latent space. Training
System-1.5 Reasoning involves a two-stage self-distillation process: first
distilling natural language CoT into latent-space continuous thought, and then
distilling full-path System-2 latent reasoning into adaptive shortcut paths
(System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior
performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves
reasoning performance comparable to traditional CoT fine-tuning methods while
accelerating inference by over 20x and reducing token generation by 92.31% on
average.Summary
AI-Generated Summary