System-1.5-Reasoning: Navigation in Sprach- und latenten Räumen mit dynamischen Abkürzungen

papers.abstract

Chain-of-Thought (CoT)-Reasoning ermöglicht es großen Sprachmodellen (LLMs), über schnelle System-1-Antworten hinauszugehen und deliberative System-2-Argumentation zu betreiben. Dies geht jedoch mit erheblichen Ineffizienzen aufgrund von ausführlichen Zwischenausgaben einher. Aktuelle Methoden zur latenten Raum-Argumentation verbessern die Effizienz, indem sie auf versteckten Zuständen operieren, ohne diese in Sprache zu dekodieren. Dennoch behandeln sie alle Schritte gleichförmig, unterscheiden nicht zwischen kritischen Schlussfolgerungen und unterstützenden Schritten und führen so zu einer suboptimalen Nutzung der Rechenressourcen. In diesem Artikel schlagen wir System-1.5 Reasoning vor, ein adaptives Argumentationsframework, das die Berechnung dynamisch über die Argumentationsschritte hinweg durch Abkürzungspfade im latenten Raum verteilt. Konkret führt System-1.5 Reasoning zwei Arten von dynamischen Abkürzungen ein. Der Modelltiefen-Abkürzungspfad (DS) argumentiert adaptiv entlang der vertikalen Tiefe, indem nicht-kritische Token durch leichte Adapterzweige frühzeitig beendet werden, während kritische Token weiterhin durch tiefere Transformer-Schichten laufen. Der Schritt-Abkürzungspfad (SS) wiederverwendet versteckte Zustände über die Dekodierungsschritte hinweg, um triviale Schritte zu überspringen und horizontal im latenten Raum zu argumentieren. Das Training von System-1.5 Reasoning umfasst einen zweistufigen Selbst-Distillationsprozess: Zuerst wird die natürliche Sprache der CoT in kontinuierliches Denken im latenten Raum destilliert, und dann wird die vollständige System-2-latente Argumentation in adaptive Abkürzungspfade (System-1.5 Reasoning) destilliert. Experimente zu Argumentationsaufgaben demonstrieren die überlegene Leistung unserer Methode. Beispielsweise erreicht System-1.5 Reasoning auf GSM8K eine Argumentationsleistung, die mit traditionellen CoT-Fine-Tuning-Methoden vergleichbar ist, während die Inferenz um mehr als das 20-fache beschleunigt und die Token-Generierung im Durchschnitt um 92,31 % reduziert wird.

English

Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move beyond fast System-1 responses and engage in deliberative System-2 reasoning. However, this comes at the cost of significant inefficiency due to verbose intermediate output. Recent latent-space reasoning methods improve efficiency by operating on hidden states without decoding into language, yet they treat all steps uniformly, failing to distinguish critical deductions from auxiliary steps and resulting in suboptimal use of computational resources. In this paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that dynamically allocates computation across reasoning steps through shortcut paths in latent space. Specifically, System-1.5 Reasoning introduces two types of dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the vertical depth by early exiting non-critical tokens through lightweight adapter branches, while allowing critical tokens to continue through deeper Transformer layers. The step shortcut (SS) reuses hidden states across the decoding steps to skip trivial steps and reason horizontally in latent space. Training System-1.5 Reasoning involves a two-stage self-distillation process: first distilling natural language CoT into latent-space continuous thought, and then distilling full-path System-2 latent reasoning into adaptive shortcut paths (System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves reasoning performance comparable to traditional CoT fine-tuning methods while accelerating inference by over 20x and reducing token generation by 92.31% on average.

System-1.5-Reasoning: Navigation in Sprach- und latenten Räumen mit dynamischen Abkürzungen

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

papers.abstract

Support