Rumo a uma Inferência Rápida de LLM Multilíngue: Decodificação Especulativa e Redatores Especializados

Resumo

Grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural e ampliaram sua aplicabilidade em diversas aplicações comerciais. No entanto, a implementação desses modelos é limitada pelo alto tempo de inferência em ambientes multilíngues. Para mitigar esse desafio, este artigo explora uma receita de treinamento de um modelo assistente em decodificação especulativa, que é aproveitada para elaborar rascunhos e, em seguida, seus tokens futuros são verificados pelo LLM alvo. Mostramos que modelos de rascunho específicos de linguagem, otimizados por meio de uma estratégia de pré-treino e ajuste direcionado, trazem substancial aceleração no tempo de inferência em comparação com os métodos anteriores. Validamos esses modelos em diversos idiomas em relação ao tempo de inferência, aceleração fora do domínio e avaliação do GPT-4o.

English

Large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high inference time in multilingual settings. To mitigate this challenge, this paper explores a training recipe of an assistant model in speculative decoding, which are leveraged to draft and-then its future tokens are verified by the target LLM. We show that language-specific draft models, optimized through a targeted pretrain-and-finetune strategy, substantially brings a speedup of inference time compared to the previous methods. We validate these models across various languages in inference time, out-of-domain speedup, and GPT-4o evaluation.

Rumo a uma Inferência Rápida de LLM Multilíngue: Decodificação Especulativa e Redatores Especializados

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

Resumo

Support