VIA-SD: Verificación mediante enrutamiento intra-modelo para decodificación especulativa

Resumen

La decodificación especulativa (DS) aborda los elevados costos de inferencia de los LLMs al hacer que borradores ligeros generen candidatos que grandes verificadores validen en paralelo. Los métodos actuales de verificación de borradores utilizan decisiones binarias: aceptar o recalcular por completo. Sin embargo, descubrimos que muchos tokens rechazados pueden verificarse correctamente mediante un submodelo reducido derivado del verificador completo mediante enrutamiento intramodelo, en lugar de recurrir al verificador completo. Esto motiva nuestro verificador reducido para manejar tokens que requieren recursos de verificación moderados, reduciendo así las costosas llamadas al modelo grande. Proponemos Verificación mediante Enrutamiento Intramodelo para Decodificación Especulativa (VIA-SD), un marco de múltiples niveles que utiliza un verificador reducido enrutado. Los tokens de borrador se procesan jerárquicamente: aceptación directa para casos de alta confianza, regeneración con el verificador reducido para casos de confianza media y verificación con el modelo completo para casos inciertos. En cuatro tareas representativas y múltiples familias de modelos, VIA-SD reduce las tasas de rechazo en 0.10–0.22 y proporciona aceleraciones del 10–20% sobre líneas base robustas de DS, logrando al mismo tiempo una aceleración de 2.5–3× respecto a la decodificación sin borrador. Además, VIA-SD es compatible con marcos de DS existentes sin modificar sus procedimientos de entrenamiento. Nuestros resultados sugieren que la DS de múltiples niveles constituye un paradigma general para una inferencia escalable y eficiente de LLMs. Página del proyecto: https://zju-xyc.github.io/VIA-SD-Project-Page/

English

Speculative decoding (SD) addresses the high inference costs of LLMs by having lightweight drafters generate candidates for large verifiers to validate in parallel. Existing draft-verify methods use binary decisions: accept or fully recompute. Yet we find that many rejected tokens can be verified correctly by a slim submodel derived from the full verifier via intra-model routing, instead of the full verifier. This motivates our slim-verifier to handle tokens requiring moderate verification resources, reducing expensive large-model calls. We propose Verification via Intra-Model Routing for Speculative Decoding (VIA-SD), a multi-tier framework using a routed slim-verifier. Draft tokens are processed hierarchically: direct acceptance for high-confidence cases, slim-verifier regeneration for medium-confidence cases, and full-model verification for uncertain cases. Across four representative tasks and multiple model families, VIA-SD reduces rejection rates by 0.10-0.22 and delivers 10-20% speedups over strong SD baselines, while achieving 2.5-3x acceleration over non-drafting decoding. Moreover, VIA-SD is compatible with existing SD frameworks without modifying their training procedures. Our results suggest multi-tier SD as a general paradigm for scalable and efficient LLM inference. Project page: https://zju-xyc.github.io/VIA-SD-Project-Page/