Hiena Carroñera: Destilando Transformers en Modelos de Convolución Larga
Scavenging Hyena: Distilling Transformers into Long Convolution Models
January 31, 2024
Autores: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI
Resumen
La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificada por arquitecturas como GPT-4, ha transformado el panorama del procesamiento del lenguaje natural. Este artículo presenta un enfoque pionero para abordar las preocupaciones de eficiencia asociadas con el preentrenamiento de LLMs, proponiendo el uso de la destilación de conocimiento para la transferencia entre arquitecturas. Aprovechando los conocimientos del mecanismo eficiente Hyena, nuestro método reemplaza las cabezas de atención en los modelos transformadores por Hyena, ofreciendo una alternativa rentable al preentrenamiento tradicional mientras enfrenta el desafío de procesar información contextual larga, inherente a los mecanismos de atención cuadrática. A diferencia de los métodos convencionales centrados en la compresión, nuestra técnica no solo mejora la velocidad de inferencia, sino que también supera el preentrenamiento en términos de precisión y eficiencia. En la era de los LLMs en evolución, nuestro trabajo contribuye a la búsqueda de soluciones de IA sostenibles, equilibrando el poder computacional y el impacto ambiental.
English
The rapid evolution of Large Language Models (LLMs), epitomized by
architectures like GPT-4, has reshaped the landscape of natural language
processing. This paper introduces a pioneering approach to address the
efficiency concerns associated with LLM pre-training, proposing the use of
knowledge distillation for cross-architecture transfer. Leveraging insights
from the efficient Hyena mechanism, our method replaces attention heads in
transformer models by Hyena, offering a cost-effective alternative to
traditional pre-training while confronting the challenge of processing long
contextual information, inherent in quadratic attention mechanisms. Unlike
conventional compression-focused methods, our technique not only enhances
inference speed but also surpasses pre-training in terms of both accuracy and
efficiency. In the era of evolving LLMs, our work contributes to the pursuit of
sustainable AI solutions, striking a balance between computational power and
environmental impact.