Rumo a uma Inferência Rápida de LLM Multilíngue: Decodificação Especulativa e Redatores Especializados
Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters
June 24, 2024
Autores: Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural e ampliaram sua aplicabilidade em diversas aplicações comerciais. No entanto, a implementação desses modelos é limitada pelo alto tempo de inferência em ambientes multilíngues. Para mitigar esse desafio, este artigo explora uma receita de treinamento de um modelo assistente em decodificação especulativa, que é aproveitada para elaborar rascunhos e, em seguida, seus tokens futuros são verificados pelo LLM alvo. Mostramos que modelos de rascunho específicos de linguagem, otimizados por meio de uma estratégia de pré-treino e ajuste direcionado, trazem substancial aceleração no tempo de inferência em comparação com os métodos anteriores. Validamos esses modelos em diversos idiomas em relação ao tempo de inferência, aceleração fora do domínio e avaliação do GPT-4o.
English
Large language models (LLMs) have revolutionized natural language processing
and broadened their applicability across diverse commercial applications.
However, the deployment of these models is constrained by high inference time
in multilingual settings. To mitigate this challenge, this paper explores a
training recipe of an assistant model in speculative decoding, which are
leveraged to draft and-then its future tokens are verified by the target LLM.
We show that language-specific draft models, optimized through a targeted
pretrain-and-finetune strategy, substantially brings a speedup of inference
time compared to the previous methods. We validate these models across various
languages in inference time, out-of-domain speedup, and GPT-4o evaluation.