ChatPaper.aiChatPaper

高速な多言語LLM推論に向けて:投機的デコードと専用ドラフター

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

June 24, 2024
著者: Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun
cs.AI

要旨

大規模言語モデル(LLM)は自然言語処理に革命をもたらし、多様な商用アプリケーションでの適用範囲を拡大してきた。しかし、これらのモデルの展開は、多言語環境における高い推論時間によって制約を受けている。この課題を緩和するため、本論文では、推測的デコーディングにおけるアシスタントモデルのトレーニング手法を探求する。この手法では、ドラフトモデルがトークンを生成し、その後、ターゲットLLMによってその将来のトークンが検証される。言語固有のドラフトモデルを、特定の事前学習とファインチューニング戦略を通じて最適化することで、従来の方法と比較して推論時間の大幅な高速化がもたらされることを示す。これらのモデルを、推論時間、ドメイン外での高速化、およびGPT-4o評価において、さまざまな言語で検証する。
English
Large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high inference time in multilingual settings. To mitigate this challenge, this paper explores a training recipe of an assistant model in speculative decoding, which are leveraged to draft and-then its future tokens are verified by the target LLM. We show that language-specific draft models, optimized through a targeted pretrain-and-finetune strategy, substantially brings a speedup of inference time compared to the previous methods. We validate these models across various languages in inference time, out-of-domain speedup, and GPT-4o evaluation.

Summary

AI-Generated Summary

PDF203November 29, 2024