Beschleunigung parallelisierbarer Schlussfolgerungen durch parallele Dekodierung innerhalb einer Sequenz
Accelerate Parallelizable Reasoning via Parallel Decoding within One Sequence
March 26, 2025
Autoren: Yijiong Yu
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Reasoning-Modellen haben signifikante Verbesserungen in der Genauigkeit gezeigt, insbesondere bei komplexen Aufgaben wie mathematischem Reasoning, durch den Einsatz detaillierter und umfassender Reasoning-Prozesse. Die Generierung dieser langen Reasoning-Sequenzen ist jedoch rechenintensiv und zeitaufwendig. Um diese Ineffizienz zu beheben, nutzen wir die inhärente Parallelisierbarkeit bestimmter Aufgaben, um den Reasoning-Prozess zu beschleunigen. Insbesondere wenn mehrere parallele Reasoning-Zweige existieren, dekodieren wir mehrere Tokens pro Schritt unter Verwendung einer spezialisierten Attention-Maske und verarbeiten sie innerhalb einer einzigen Sequenz, wodurch zusätzlicher Speicherbedarf vermieden wird. Experimentelle Ergebnisse zeigen, dass unsere Methode eine Beschleunigung der Dekodierzeit von über 100 % erreicht, während die Antwortqualität erhalten bleibt.
English
Recent advances in reasoning models have demonstrated significant
improvements in accuracy, particularly for complex tasks such as mathematical
reasoning, by employing detailed and comprehensive reasoning processes.
However, generating these lengthy reasoning sequences is computationally
expensive and time-consuming. To address this inefficiency, we leverage the
inherent parallelizability of certain tasks to accelerate the reasoning
process. Specifically, when multiple parallel reasoning branches exist, we
decode multiple tokens per step using a specialized attention mask, processing
them within a single sequence, avoiding additional memory usage. Experimental
results show that our method achieves over 100% speedup in decoding time while
maintaining the answer quality.Summary
AI-Generated Summary