ChatPaper.aiChatPaper

Raisonnement Système-1.5 : Parcours dans les espaces linguistiques et latents avec des raccourcis dynamiques

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

May 25, 2025
Auteurs: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI

Résumé

Le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) permet aux grands modèles de langage (LLMs) de dépasser les réponses rapides du Système 1 et de s’engager dans un raisonnement délibératif du Système 2. Cependant, cela se fait au prix d’une inefficacité significative due à la production verbale d’étapes intermédiaires. Les méthodes récentes de raisonnement dans l’espace latent améliorent l’efficacité en opérant sur les états cachés sans décodage en langage, mais elles traitent toutes les étapes de manière uniforme, ne distinguant pas les déductions critiques des étapes auxiliaires, ce qui entraîne une utilisation sous-optimale des ressources computationnelles. Dans cet article, nous proposons le raisonnement Système-1.5, un cadre de raisonnement adaptatif qui alloue dynamiquement les calculs à travers les étapes de raisonnement via des chemins raccourcis dans l’espace latent. Plus précisément, le raisonnement Système-1.5 introduit deux types de raccourcis dynamiques. Le raccourci de profondeur du modèle (DS) raisonne de manière adaptative le long de la profondeur verticale en sortant précocement les tokens non critiques via des branches d’adaptation légères, tout en permettant aux tokens critiques de continuer à travers les couches plus profondes du Transformer. Le raccourci d’étape (SS) réutilise les états cachés à travers les étapes de décodage pour sauter les étapes triviales et raisonner horizontalement dans l’espace latent. L’entraînement du raisonnement Système-1.5 implique un processus d’auto-distillation en deux étapes : d’abord, distiller le CoT en langage naturel en une pensée continue dans l’espace latent, puis distiller le raisonnement latent complet du Système 2 en chemins raccourcis adaptatifs (raisonnement Système-1.5). Les expériences sur des tâches de raisonnement démontrent la performance supérieure de notre méthode. Par exemple, sur GSM8K, le raisonnement Système-1.5 atteint une performance de raisonnement comparable aux méthodes traditionnelles de fine-tuning CoT tout en accélérant l’inférence de plus de 20 fois et en réduisant la génération de tokens de 92,31 % en moyenne.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move beyond fast System-1 responses and engage in deliberative System-2 reasoning. However, this comes at the cost of significant inefficiency due to verbose intermediate output. Recent latent-space reasoning methods improve efficiency by operating on hidden states without decoding into language, yet they treat all steps uniformly, failing to distinguish critical deductions from auxiliary steps and resulting in suboptimal use of computational resources. In this paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that dynamically allocates computation across reasoning steps through shortcut paths in latent space. Specifically, System-1.5 Reasoning introduces two types of dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the vertical depth by early exiting non-critical tokens through lightweight adapter branches, while allowing critical tokens to continue through deeper Transformer layers. The step shortcut (SS) reuses hidden states across the decoding steps to skip trivial steps and reason horizontally in latent space. Training System-1.5 Reasoning involves a two-stage self-distillation process: first distilling natural language CoT into latent-space continuous thought, and then distilling full-path System-2 latent reasoning into adaptive shortcut paths (System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves reasoning performance comparable to traditional CoT fine-tuning methods while accelerating inference by over 20x and reducing token generation by 92.31% on average.

Summary

AI-Generated Summary

PDF122May 30, 2025