Belohnungsgesteuertes spekulatives Decodieren für effizientes LLM-Argumentieren
Reward-Guided Speculative Decoding for Efficient LLM Reasoning
January 31, 2025
Autoren: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong
cs.AI
Zusammenfassung
Wir stellen Reward-Guided Speculative Decoding (RSD) vor, ein neuartiges Framework zur Verbesserung der Effizienz der Inferenz in großen Sprachmodellen (LLMs). RSD kombiniert synergistisch ein leichtgewichtiges Entwurfsmodell mit einem leistungsstärkeren Zielmodell und integriert eine kontrollierte Voreingenommenheit, um Ausgaben mit hoher Belohnung zu priorisieren, im Gegensatz zu bestehenden spekulativen Dekodierungsmethoden, die strenge Voreingenommenheit durchsetzen. RSD verwendet ein Prozessbelohnungsmodell, um Zwischendekodierungsschritte zu bewerten und dynamisch zu entscheiden, ob das Zielmodell aufgerufen werden soll, um den Kompromiss zwischen Rechenkosten und Ausgabequalität zu optimieren. Wir zeigen theoretisch, dass eine schwellenbasierte Mischstrategie ein optimales Gleichgewicht zwischen Ressourcennutzung und Leistung erreicht. Umfangreiche Evaluationen an anspruchsvollen Denkprüfungen, einschließlich Aufgaben auf Olympiade-Niveau, zeigen, dass RSD signifikante Effizienzgewinne gegenüber der Dekodierung nur mit dem Zielmodell erzielt (bis zu 4,4-mal weniger FLOPs), während eine signifikant bessere Genauigkeit als die parallele Dekodierungsmethode im Durchschnitt erreicht wird (bis zu +3,5). Diese Ergebnisse heben RSD als einen robusten und kosteneffektiven Ansatz für den Einsatz von LLMs in ressourcenintensiven Szenarien hervor.
English
We introduce Reward-Guided Speculative Decoding (RSD), a novel framework
aimed at improving the efficiency of inference in large language models (LLMs).
RSD synergistically combines a lightweight draft model with a more powerful
target model, incorporating a controlled bias to prioritize high-reward
outputs, in contrast to existing speculative decoding methods that enforce
strict unbiasedness. RSD employs a process reward model to evaluate
intermediate decoding steps and dynamically decide whether to invoke the target
model, optimizing the trade-off between computational cost and output quality.
We theoretically demonstrate that a threshold-based mixture strategy achieves
an optimal balance between resource utilization and performance. Extensive
evaluations on challenging reasoning benchmarks, including Olympiad-level
tasks, show that RSD delivers significant efficiency gains against decoding
with the target model only (up to 4.4x fewer FLOPs), while achieving
significant better accuracy than parallel decoding method on average (up to
+3.5). These results highlight RSD as a robust and cost-effective approach for
deploying LLMs in resource-intensive scenarios.Summary
AI-Generated Summary