System-1.5 Redeneren: Doorlopen in Taal- en Latente Ruimtes met Dynamische Snelkoppelingen
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts
May 25, 2025
Auteurs: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI
Samenvatting
Chain-of-thought (CoT) redeneren stelt grote taalmodellen (LLMs) in staat om verder te gaan dan snelle System-1 reacties en zich bezig te houden met doordacht System-2 redeneren. Dit gaat echter gepaard met aanzienlijke inefficiëntie vanwege uitgebreide tussenliggende output. Recente latent-space redeneermethoden verbeteren de efficiëntie door te werken op verborgen toestanden zonder deze te decoderen naar taal, maar ze behandelen alle stappen uniform, waardoor kritieke deducties niet worden onderscheiden van hulpstappen, wat resulteert in een suboptimaal gebruik van rekenbronnen. In dit artikel stellen we System-1.5 Redeneren voor, een adaptief redeneerkader dat dynamisch rekenkracht toewijst over redeneerstappen via snelkoppelingen in de latent space. Specifiek introduceert System-1.5 Redeneren twee soorten dynamische snelkoppelingen. De modeldiepte-snelkoppeling (DS) redeneert adaptief langs de verticale diepte door vroegtijdig uit te stappen bij niet-kritieke tokens via lichtgewicht adaptertakken, terwijl kritieke tokens worden toegestaan om door te gaan via diepere Transformer-lagen. De stapsnelkoppeling (SS) hergebruikt verborgen toestanden over de decodeerstappen om triviale stappen over te slaan en horizontaal te redeneren in de latent space. Het trainen van System-1.5 Redeneren omvat een tweestaps zelfdistillatieproces: eerst wordt natuurlijke taal CoT gedistilleerd naar continue gedachten in de latent space, en vervolgens wordt volledig pad System-2 latent redeneren gedistilleerd naar adaptieve snelkoppelingspaden (System-1.5 Redeneren). Experimenten op redeneertaken demonstreren de superieure prestaties van onze methode. Op GSM8K bereikt System-1.5 Redeneren bijvoorbeeld redeneerprestaties die vergelijkbaar zijn met traditionele CoT fine-tuning methoden, terwijl de inferentie met meer dan 20x wordt versneld en de token-generatie met gemiddeld 92,31% wordt verminderd.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move
beyond fast System-1 responses and engage in deliberative System-2 reasoning.
However, this comes at the cost of significant inefficiency due to verbose
intermediate output. Recent latent-space reasoning methods improve efficiency
by operating on hidden states without decoding into language, yet they treat
all steps uniformly, failing to distinguish critical deductions from auxiliary
steps and resulting in suboptimal use of computational resources. In this
paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that
dynamically allocates computation across reasoning steps through shortcut paths
in latent space. Specifically, System-1.5 Reasoning introduces two types of
dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the
vertical depth by early exiting non-critical tokens through lightweight adapter
branches, while allowing critical tokens to continue through deeper Transformer
layers. The step shortcut (SS) reuses hidden states across the decoding steps
to skip trivial steps and reason horizontally in latent space. Training
System-1.5 Reasoning involves a two-stage self-distillation process: first
distilling natural language CoT into latent-space continuous thought, and then
distilling full-path System-2 latent reasoning into adaptive shortcut paths
(System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior
performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves
reasoning performance comparable to traditional CoT fine-tuning methods while
accelerating inference by over 20x and reducing token generation by 92.31% on
average.