Beloningsgestuurde speculatieve decodering voor efficiënte LLM-redenering.
Reward-Guided Speculative Decoding for Efficient LLM Reasoning
January 31, 2025
Auteurs: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong
cs.AI
Samenvatting
We introduceren Reward-Guided Speculative Decoding (RSD), een nieuw raamwerk gericht op het verbeteren van de efficiëntie van inferentie in grote taalmodellen (LLMs). RSD combineert op synergetische wijze een lichtgewicht conceptmodel met een krachtiger doelmodel, waarbij een gecontroleerde bias wordt toegepast om uitvoer met hoge beloningen prioriteit te geven, in tegenstelling tot bestaande speculatieve decodeermethoden die strikte onbevooroordeeldheid afdwingen. RSD maakt gebruik van een procesbeloningsmodel om tussenliggende decodeerstappen te evalueren en dynamisch te beslissen of het doelmodel moet worden ingeroepen, waarbij de afweging tussen rekenkundige kosten en uitvoerkwaliteit wordt geoptimaliseerd. We tonen theoretisch aan dat een op drempel gebaseerde mengstrategie een optimale balans bereikt tussen het gebruik van middelen en prestaties. Uitgebreide evaluaties op uitdagende redeneerbenchmarks, waaronder taken op Olympisch niveau, tonen aan dat RSD aanzienlijke efficiëntiewinsten oplevert ten opzichte van decoderen met alleen het doelmodel (tot 4,4x minder FLOPs), terwijl het significant betere nauwkeurigheid behaalt dan de parallelle decodeermethode gemiddeld (tot +3,5). Deze resultaten benadrukken RSD als een robuuste en kosteneffectieve benadering voor het implementeren van LLMs in scenario's met veel middelen.
English
We introduce Reward-Guided Speculative Decoding (RSD), a novel framework
aimed at improving the efficiency of inference in large language models (LLMs).
RSD synergistically combines a lightweight draft model with a more powerful
target model, incorporating a controlled bias to prioritize high-reward
outputs, in contrast to existing speculative decoding methods that enforce
strict unbiasedness. RSD employs a process reward model to evaluate
intermediate decoding steps and dynamically decide whether to invoke the target
model, optimizing the trade-off between computational cost and output quality.
We theoretically demonstrate that a threshold-based mixture strategy achieves
an optimal balance between resource utilization and performance. Extensive
evaluations on challenging reasoning benchmarks, including Olympiad-level
tasks, show that RSD delivers significant efficiency gains against decoding
with the target model only (up to 4.4x fewer FLOPs), while achieving
significant better accuracy than parallel decoding method on average (up to
+3.5). These results highlight RSD as a robust and cost-effective approach for
deploying LLMs in resource-intensive scenarios.Summary
AI-Generated Summary