VIA-SD: Верификация посредством внутримодельной маршрутизации для спекулятивного декодирования

Аннотация

Спекулятивное декодирование (SD) решает проблему высоких вычислительных затрат крупных языковых моделей (LLM) за счёт того, что лёгкие модели-драфтеры генерируют кандидаты, которые крупные верификаторы проверяют параллельно. Существующие методы «драфт-верификация» используют бинарное решение: принять или полностью пересчитать. Однако мы обнаружили, что многие отклонённые токены могут быть корректно верифицированы с помощью подмодели, полученной из полного верификатора через внутримодельную маршрутизацию, а не полным верификатором. Это мотивирует использование нашего «облегчённого верификатора» (slim-verifier) для обработки токенов, требующих умеренных вычислительных ресурсов, что сокращает количество дорогостоящих вызовов большой модели. Мы предлагаем VIA-SD (Verification via Intra-Model Routing for Speculative Decoding) — многоуровневую структуру, использующую маршрутизированный облегчённый верификатор. Токены драфта обрабатываются иерархически: прямое принятие в случае высокой уверенности, регенерация облегчённым верификатором в случае средней уверенности и верификация полной моделью в неопределённых случаях. На четырёх типовых задачах и нескольких семействах моделей VIA-SD снижает уровень отказов на 0.10–0.22 и обеспечивает ускорение на 10–20% по сравнению с сильными базовыми SD-методами, достигая ускорения в 2.5–3 раза относительно декодирования без драфта. Более того, VIA-SD совместим с существующими SD-фреймворками без изменения процедур их обучения. Наши результаты указывают на многоуровневое SD как общую парадигму масштабируемого и эффективного вывода LLM. Страница проекта: https://zju-xyc.github.io/VIA-SD-Project-Page/

English

Speculative decoding (SD) addresses the high inference costs of LLMs by having lightweight drafters generate candidates for large verifiers to validate in parallel. Existing draft-verify methods use binary decisions: accept or fully recompute. Yet we find that many rejected tokens can be verified correctly by a slim submodel derived from the full verifier via intra-model routing, instead of the full verifier. This motivates our slim-verifier to handle tokens requiring moderate verification resources, reducing expensive large-model calls. We propose Verification via Intra-Model Routing for Speculative Decoding (VIA-SD), a multi-tier framework using a routed slim-verifier. Draft tokens are processed hierarchically: direct acceptance for high-confidence cases, slim-verifier regeneration for medium-confidence cases, and full-model verification for uncertain cases. Across four representative tasks and multiple model families, VIA-SD reduces rejection rates by 0.10-0.22 and delivers 10-20% speedups over strong SD baselines, while achieving 2.5-3x acceleration over non-drafting decoding. Moreover, VIA-SD is compatible with existing SD frameworks without modifying their training procedures. Our results suggest multi-tier SD as a general paradigm for scalable and efficient LLM inference. Project page: https://zju-xyc.github.io/VIA-SD-Project-Page/