Adaptives paralleles Denken mit Sprachmodellen erlernen

papers.abstract

Die Skalierung der Inferenzzeitberechnung hat die Fähigkeiten von Sprachmodellen zur logischen Schlussfolgerung erheblich verbessert. Bestehende Methoden weisen jedoch erhebliche Einschränkungen auf: Serialisierte Chain-of-Thought-Ansätze erzeugen übermäßig lange Ausgaben, was zu erhöhter Latenz und erschöpften Kontextfenstern führt, während parallele Methoden wie Self-Consistency unter unzureichender Koordination leiden, was redundante Berechnungen und begrenzte Leistungssteigerungen zur Folge hat. Um diese Mängel zu beheben, schlagen wir Adaptive Parallel Reasoning (APR) vor, ein neuartiges Rahmenwerk für logische Schlussfolgerungen, das Sprachmodelle in die Lage versetzt, sowohl serialisierte als auch parallele Berechnungen end-to-end zu orchestrieren. APR verallgemeinert bestehende Methoden zur logischen Schlussfolgerung, indem es adaptive Multithread-Inferenz durch die Verwendung von spawn()- und join()-Operationen ermöglicht. Eine zentrale Innovation ist unsere end-to-end Reinforcement-Learning-Strategie, die sowohl übergeordnete als auch untergeordnete Inferenz-Threads optimiert, um die Erfolgsrate bei Aufgaben zu steigern, ohne vordefinierte Strukturen für die logische Schlussfolgerung zu benötigen. Experimente zur Countdown-Aufgabe zur logischen Schlussfolgerung demonstrieren die signifikanten Vorteile von APR: (1) höhere Leistung innerhalb desselben Kontextfensters (83,4 % vs. 60,0 % bei 4k Kontext); (2) überlegene Skalierbarkeit bei erhöhter Berechnung (80,1 % vs. 66,6 % bei 20k Gesamt-Tokens); (3) verbesserte Genauigkeit bei äquivalenter Latenz (75,2 % vs. 57,3 % bei ca. 5.000 ms). APR stellt einen Schritt dar, um Sprachmodelle in die Lage zu versetzen, ihre logischen Schlussfolgerungsprozesse durch adaptive Zuweisung von Berechnungen autonom zu optimieren.

English

Scaling inference-time computation has substantially improved the reasoning capabilities of language models. However, existing methods have significant limitations: serialized chain-of-thought approaches generate overly long outputs, leading to increased latency and exhausted context windows, while parallel methods such as self-consistency suffer from insufficient coordination, resulting in redundant computations and limited performance gains. To address these shortcomings, we propose Adaptive Parallel Reasoning (APR), a novel reasoning framework that enables language models to orchestrate both serialized and parallel computations end-to-end. APR generalizes existing reasoning methods by enabling adaptive multi-threaded inference using spawn() and join() operations. A key innovation is our end-to-end reinforcement learning strategy, optimizing both parent and child inference threads to enhance task success rate without requiring predefined reasoning structures. Experiments on the Countdown reasoning task demonstrate significant benefits of APR: (1) higher performance within the same context window (83.4% vs. 60.0% at 4k context); (2) superior scalability with increased computation (80.1% vs. 66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2% vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling language models to autonomously optimize their reasoning processes through adaptive allocation of computation.

Adaptives paralleles Denken mit Sprachmodellen erlernen

Learning Adaptive Parallel Reasoning with Language Models

papers.abstract

Support