ChatPaper.aiChatPaper

К быстрому многоязычному выводу LLM: спекулятивное декодирование и специализированные черновики

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

June 24, 2024
Авторы: Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun
cs.AI

Аннотация

Большие языковые модели (LLM) революционизировали обработку естественного языка и расширили свою применимость в различных коммерческих приложениях. Однако развертывание этих моделей ограничено высоким временем вывода в мультиязычных средах. Для преодоления этого вызова в данной статье исследуется метод обучения вспомогательной модели при спекулятивном декодировании, которое используется для составления черновика, а затем его будущие токены проверяются целевой LLM. Мы показываем, что языковые черновые модели, оптимизированные с помощью целевой стратегии предварительного обучения и донастройки, значительно ускоряют время вывода по сравнению с предыдущими методами. Мы проверяем эти модели на различных языках по времени вывода, ускорению вне области и оценке GPT-4o.
English
Large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high inference time in multilingual settings. To mitigate this challenge, this paper explores a training recipe of an assistant model in speculative decoding, which are leveraged to draft and-then its future tokens are verified by the target LLM. We show that language-specific draft models, optimized through a targeted pretrain-and-finetune strategy, substantially brings a speedup of inference time compared to the previous methods. We validate these models across various languages in inference time, out-of-domain speedup, and GPT-4o evaluation.

Summary

AI-Generated Summary

PDF203November 29, 2024