ChatPaper.aiChatPaper

Hiena Carroñera: Destilando Transformers en Modelos de Convolución Larga

Scavenging Hyena: Distilling Transformers into Long Convolution Models

January 31, 2024
Autores: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI

Resumen

La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLMs), ejemplificada por arquitecturas como GPT-4, ha transformado el panorama del procesamiento del lenguaje natural. Este artículo presenta un enfoque pionero para abordar las preocupaciones de eficiencia asociadas con el preentrenamiento de LLMs, proponiendo el uso de la destilación de conocimiento para la transferencia entre arquitecturas. Aprovechando los conocimientos del mecanismo eficiente Hyena, nuestro método reemplaza las cabezas de atención en los modelos transformadores por Hyena, ofreciendo una alternativa rentable al preentrenamiento tradicional mientras enfrenta el desafío de procesar información contextual larga, inherente a los mecanismos de atención cuadrática. A diferencia de los métodos convencionales centrados en la compresión, nuestra técnica no solo mejora la velocidad de inferencia, sino que también supera el preentrenamiento en términos de precisión y eficiencia. En la era de los LLMs en evolución, nuestro trabajo contribuye a la búsqueda de soluciones de IA sostenibles, equilibrando el poder computacional y el impacto ambiental.
English
The rapid evolution of Large Language Models (LLMs), epitomized by architectures like GPT-4, has reshaped the landscape of natural language processing. This paper introduces a pioneering approach to address the efficiency concerns associated with LLM pre-training, proposing the use of knowledge distillation for cross-architecture transfer. Leveraging insights from the efficient Hyena mechanism, our method replaces attention heads in transformer models by Hyena, offering a cost-effective alternative to traditional pre-training while confronting the challenge of processing long contextual information, inherent in quadratic attention mechanisms. Unlike conventional compression-focused methods, our technique not only enhances inference speed but also surpasses pre-training in terms of both accuracy and efficiency. In the era of evolving LLMs, our work contributes to the pursuit of sustainable AI solutions, striking a balance between computational power and environmental impact.
PDF171December 15, 2024