System-1.5-Reasoning: Navigation in Sprach- und latenten Räumen mit dynamischen Abkürzungen
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts
May 25, 2025
Autoren: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI
Zusammenfassung
Chain-of-Thought (CoT)-Reasoning ermöglicht es großen Sprachmodellen (LLMs), über schnelle System-1-Antworten hinauszugehen und deliberative System-2-Argumentation zu betreiben. Dies geht jedoch mit erheblichen Ineffizienzen aufgrund von ausführlichen Zwischenausgaben einher. Aktuelle Methoden zur latenten Raum-Argumentation verbessern die Effizienz, indem sie auf versteckten Zuständen operieren, ohne diese in Sprache zu dekodieren. Dennoch behandeln sie alle Schritte gleichförmig, unterscheiden nicht zwischen kritischen Schlussfolgerungen und unterstützenden Schritten und führen so zu einer suboptimalen Nutzung der Rechenressourcen. In diesem Artikel schlagen wir System-1.5 Reasoning vor, ein adaptives Argumentationsframework, das die Berechnung dynamisch über die Argumentationsschritte hinweg durch Abkürzungspfade im latenten Raum verteilt. Konkret führt System-1.5 Reasoning zwei Arten von dynamischen Abkürzungen ein. Der Modelltiefen-Abkürzungspfad (DS) argumentiert adaptiv entlang der vertikalen Tiefe, indem nicht-kritische Token durch leichte Adapterzweige frühzeitig beendet werden, während kritische Token weiterhin durch tiefere Transformer-Schichten laufen. Der Schritt-Abkürzungspfad (SS) wiederverwendet versteckte Zustände über die Dekodierungsschritte hinweg, um triviale Schritte zu überspringen und horizontal im latenten Raum zu argumentieren. Das Training von System-1.5 Reasoning umfasst einen zweistufigen Selbst-Distillationsprozess: Zuerst wird die natürliche Sprache der CoT in kontinuierliches Denken im latenten Raum destilliert, und dann wird die vollständige System-2-latente Argumentation in adaptive Abkürzungspfade (System-1.5 Reasoning) destilliert. Experimente zu Argumentationsaufgaben demonstrieren die überlegene Leistung unserer Methode. Beispielsweise erreicht System-1.5 Reasoning auf GSM8K eine Argumentationsleistung, die mit traditionellen CoT-Fine-Tuning-Methoden vergleichbar ist, während die Inferenz um mehr als das 20-fache beschleunigt und die Token-Generierung im Durchschnitt um 92,31 % reduziert wird.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move
beyond fast System-1 responses and engage in deliberative System-2 reasoning.
However, this comes at the cost of significant inefficiency due to verbose
intermediate output. Recent latent-space reasoning methods improve efficiency
by operating on hidden states without decoding into language, yet they treat
all steps uniformly, failing to distinguish critical deductions from auxiliary
steps and resulting in suboptimal use of computational resources. In this
paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that
dynamically allocates computation across reasoning steps through shortcut paths
in latent space. Specifically, System-1.5 Reasoning introduces two types of
dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the
vertical depth by early exiting non-critical tokens through lightweight adapter
branches, while allowing critical tokens to continue through deeper Transformer
layers. The step shortcut (SS) reuses hidden states across the decoding steps
to skip trivial steps and reason horizontally in latent space. Training
System-1.5 Reasoning involves a two-stage self-distillation process: first
distilling natural language CoT into latent-space continuous thought, and then
distilling full-path System-2 latent reasoning into adaptive shortcut paths
(System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior
performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves
reasoning performance comparable to traditional CoT fine-tuning methods while
accelerating inference by over 20x and reducing token generation by 92.31% on
average.Summary
AI-Generated Summary