ChatPaper.aiChatPaper

Hacia una Inferencia Rápida en Modelos de Lenguaje Multilingües: Decodificación Especulativa y Modelos Especializados de Borrador

Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

June 24, 2024
Autores: Euiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural y han ampliado su aplicabilidad en diversos usos comerciales. Sin embargo, el despliegue de estos modelos se ve limitado por los altos tiempos de inferencia en entornos multilingües. Para abordar este desafío, este artículo explora una estrategia de entrenamiento de un modelo asistente en decodificación especulativa, que se utiliza para generar borradores y luego verificar sus tokens futuros mediante el LLM objetivo. Demostramos que los modelos de borrador específicos para cada idioma, optimizados mediante una estrategia dirigida de preentrenamiento y ajuste fino, logran una aceleración significativa en el tiempo de inferencia en comparación con métodos anteriores. Validamos estos modelos en varios idiomas en términos de tiempo de inferencia, aceleración fuera de dominio y evaluación con GPT-4o.
English
Large language models (LLMs) have revolutionized natural language processing and broadened their applicability across diverse commercial applications. However, the deployment of these models is constrained by high inference time in multilingual settings. To mitigate this challenge, this paper explores a training recipe of an assistant model in speculative decoding, which are leveraged to draft and-then its future tokens are verified by the target LLM. We show that language-specific draft models, optimized through a targeted pretrain-and-finetune strategy, substantially brings a speedup of inference time compared to the previous methods. We validate these models across various languages in inference time, out-of-domain speedup, and GPT-4o evaluation.

Summary

AI-Generated Summary

PDF203November 29, 2024