Decodifica Speculativa Guidata da Ricompensa per un Ragionamento Efficient di LLM
Reward-Guided Speculative Decoding for Efficient LLM Reasoning
January 31, 2025
Autori: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong
cs.AI
Abstract
Introduciamo il Decodifica Speculativa Guidata dalla Ricompensa (RSD), un nuovo framework mirato a migliorare l'efficienza dell'inferenza nei grandi modelli linguistici (LLM). RSD combina sinergicamente un modello preliminare leggero con un modello target più potente, incorporando un bias controllato per dare priorità agli output ad alta ricompensa, a differenza dei metodi di decodifica speculativa esistenti che impongono una rigorosa imparzialità. RSD utilizza un modello di ricompensa del processo per valutare i passaggi intermedi di decodifica e decidere dinamicamente se invocare il modello target, ottimizzando il compromesso tra costo computazionale e qualità dell'output. Dimostriamo teoricamente che una strategia di miscelazione basata su soglie raggiunge un equilibrio ottimale tra utilizzo delle risorse e prestazioni. Valutazioni approfondite su sfide di ragionamento impegnative, incluse attività di livello olimpico, mostrano che RSD porta significativi miglioramenti di efficienza rispetto alla decodifica con solo il modello target (fino a 4,4 volte meno FLOPs), ottenendo una precisione significativamente migliore rispetto al metodo di decodifica parallela in media (fino a +3,5). Questi risultati evidenziano RSD come un approccio robusto ed economicamente vantaggioso per implementare LLM in scenari ad alta intensità di risorse.
English
We introduce Reward-Guided Speculative Decoding (RSD), a novel framework
aimed at improving the efficiency of inference in large language models (LLMs).
RSD synergistically combines a lightweight draft model with a more powerful
target model, incorporating a controlled bias to prioritize high-reward
outputs, in contrast to existing speculative decoding methods that enforce
strict unbiasedness. RSD employs a process reward model to evaluate
intermediate decoding steps and dynamically decide whether to invoke the target
model, optimizing the trade-off between computational cost and output quality.
We theoretically demonstrate that a threshold-based mixture strategy achieves
an optimal balance between resource utilization and performance. Extensive
evaluations on challenging reasoning benchmarks, including Olympiad-level
tasks, show that RSD delivers significant efficiency gains against decoding
with the target model only (up to 4.4x fewer FLOPs), while achieving
significant better accuracy than parallel decoding method on average (up to
+3.5). These results highlight RSD as a robust and cost-effective approach for
deploying LLMs in resource-intensive scenarios.Summary
AI-Generated Summary