Adaptives paralleles Denken mit Sprachmodellen erlernen
Learning Adaptive Parallel Reasoning with Language Models
April 21, 2025
Autoren: Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
cs.AI
Zusammenfassung
Die Skalierung der Inferenzzeitberechnung hat die Fähigkeiten von Sprachmodellen zur logischen Schlussfolgerung erheblich verbessert. Bestehende Methoden weisen jedoch erhebliche Einschränkungen auf: Serialisierte Chain-of-Thought-Ansätze erzeugen übermäßig lange Ausgaben, was zu erhöhter Latenz und erschöpften Kontextfenstern führt, während parallele Methoden wie Self-Consistency unter unzureichender Koordination leiden, was redundante Berechnungen und begrenzte Leistungssteigerungen zur Folge hat. Um diese Mängel zu beheben, schlagen wir Adaptive Parallel Reasoning (APR) vor, ein neuartiges Rahmenwerk für logische Schlussfolgerungen, das Sprachmodelle in die Lage versetzt, sowohl serialisierte als auch parallele Berechnungen end-to-end zu orchestrieren. APR verallgemeinert bestehende Methoden zur logischen Schlussfolgerung, indem es adaptive Multithread-Inferenz durch die Verwendung von spawn()- und join()-Operationen ermöglicht. Eine zentrale Innovation ist unsere end-to-end Reinforcement-Learning-Strategie, die sowohl übergeordnete als auch untergeordnete Inferenz-Threads optimiert, um die Erfolgsrate bei Aufgaben zu steigern, ohne vordefinierte Strukturen für die logische Schlussfolgerung zu benötigen. Experimente zur Countdown-Aufgabe zur logischen Schlussfolgerung demonstrieren die signifikanten Vorteile von APR: (1) höhere Leistung innerhalb desselben Kontextfensters (83,4 % vs. 60,0 % bei 4k Kontext); (2) überlegene Skalierbarkeit bei erhöhter Berechnung (80,1 % vs. 66,6 % bei 20k Gesamt-Tokens); (3) verbesserte Genauigkeit bei äquivalenter Latenz (75,2 % vs. 57,3 % bei ca. 5.000 ms). APR stellt einen Schritt dar, um Sprachmodelle in die Lage zu versetzen, ihre logischen Schlussfolgerungsprozesse durch adaptive Zuweisung von Berechnungen autonom zu optimieren.
English
Scaling inference-time computation has substantially improved the reasoning
capabilities of language models. However, existing methods have significant
limitations: serialized chain-of-thought approaches generate overly long
outputs, leading to increased latency and exhausted context windows, while
parallel methods such as self-consistency suffer from insufficient
coordination, resulting in redundant computations and limited performance
gains. To address these shortcomings, we propose Adaptive Parallel Reasoning
(APR), a novel reasoning framework that enables language models to orchestrate
both serialized and parallel computations end-to-end. APR generalizes existing
reasoning methods by enabling adaptive multi-threaded inference using spawn()
and join() operations. A key innovation is our end-to-end reinforcement
learning strategy, optimizing both parent and child inference threads to
enhance task success rate without requiring predefined reasoning structures.
Experiments on the Countdown reasoning task demonstrate significant benefits of
APR: (1) higher performance within the same context window (83.4% vs. 60.0% at
4k context); (2) superior scalability with increased computation (80.1% vs.
66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2%
vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling
language models to autonomously optimize their reasoning processes through
adaptive allocation of computation.Summary
AI-Generated Summary