VIA-SD: Verificatie via Intra-Model Routering voor Speculatieve Decodering

Samenvatting

Speculatieve decodering (SD) pakt de hoge inferentiekosten van LLM's aan door lichtgewicht draftmodellen kandidaten te laten genereren die grote verificateurs parallel kunnen valideren. Bestaande draft-verify methoden gebruiken binaire beslissingen: accepteren of volledig herberekenen. We constateren echter dat veel afgewezen tokens correct kunnen worden geverifieerd door een slank submodel dat via intra-model routering is afgeleid van de volledige verificateur, in plaats van door de volledige verificateur. Dit motiveert onze slanke verificateur om tokens te behandelen die gematigde verificatiebronnen vereisen, waardoor dure aanroepen van het grote model worden verminderd. We stellen Verification via Intra-Model Routing for Speculative Decoding (VIA-SD) voor, een meertraps raamwerk dat gebruikmaakt van een gerouteerde slanke verificateur. Draft tokens worden hiërarchisch verwerkt: directe acceptatie voor gevallen met hoge betrouwbaarheid, regeneratie door de slanke verificateur voor gevallen met gemiddelde betrouwbaarheid, en verificatie door het volledige model voor onzekere gevallen. Over vier representatieve taken en meerdere modelfamilies heen verlaagt VIA-SD de afwijzingspercentages met 0,10–0,22 en levert het 10–20% versnellingen op ten opzichte van sterke SD-basislijnen, terwijl het een versnelling van 2,5–3x bereikt ten opzichte van decodering zonder draft modellen. Bovendien is VIA-SD compatibel met bestaande SD-raamwerken zonder dat hun trainingsprocedures moeten worden aangepast. Onze resultaten wijzen op meertraps SD als een algemeen paradigma voor schaalbare en efficiënte LLM-inferentie. Projectpagina: https://zju-xyc.github.io/VIA-SD-Project-Page/

English

Speculative decoding (SD) addresses the high inference costs of LLMs by having lightweight drafters generate candidates for large verifiers to validate in parallel. Existing draft-verify methods use binary decisions: accept or fully recompute. Yet we find that many rejected tokens can be verified correctly by a slim submodel derived from the full verifier via intra-model routing, instead of the full verifier. This motivates our slim-verifier to handle tokens requiring moderate verification resources, reducing expensive large-model calls. We propose Verification via Intra-Model Routing for Speculative Decoding (VIA-SD), a multi-tier framework using a routed slim-verifier. Draft tokens are processed hierarchically: direct acceptance for high-confidence cases, slim-verifier regeneration for medium-confidence cases, and full-model verification for uncertain cases. Across four representative tasks and multiple model families, VIA-SD reduces rejection rates by 0.10-0.22 and delivers 10-20% speedups over strong SD baselines, while achieving 2.5-3x acceleration over non-drafting decoding. Moreover, VIA-SD is compatible with existing SD frameworks without modifying their training procedures. Our results suggest multi-tier SD as a general paradigm for scalable and efficient LLM inference. Project page: https://zju-xyc.github.io/VIA-SD-Project-Page/