Iena Spazzina: Distillare i Trasformatori in Modelli a Convoluzione Lunga
Scavenging Hyena: Distilling Transformers into Long Convolution Models
January 31, 2024
Autori: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI
Abstract
La rapida evoluzione dei Large Language Models (LLM), esemplificata da architetture come GPT-4, ha ridefinito il panorama del natural language processing. Questo articolo introduce un approccio pionieristico per affrontare le preoccupazioni legate all'efficienza nel pre-training degli LLM, proponendo l'uso della distillazione della conoscenza per il trasferimento cross-architettura. Sfruttando le intuizioni del meccanismo efficiente Hyena, il nostro metodo sostituisce le testine di attenzione nei modelli transformer con Hyena, offrendo un'alternativa economica al pre-training tradizionale e affrontando la sfida di elaborare informazioni contestuali lunghe, intrinseca ai meccanismi di attenzione quadratica. A differenza dei metodi convenzionali focalizzati sulla compressione, la nostra tecnica non solo migliora la velocità di inferenza, ma supera anche il pre-training in termini di accuratezza ed efficienza. Nell'era degli LLM in evoluzione, il nostro lavoro contribuisce alla ricerca di soluzioni AI sostenibili, bilanciando potenza computazionale e impatto ambientale.
English
The rapid evolution of Large Language Models (LLMs), epitomized by
architectures like GPT-4, has reshaped the landscape of natural language
processing. This paper introduces a pioneering approach to address the
efficiency concerns associated with LLM pre-training, proposing the use of
knowledge distillation for cross-architecture transfer. Leveraging insights
from the efficient Hyena mechanism, our method replaces attention heads in
transformer models by Hyena, offering a cost-effective alternative to
traditional pre-training while confronting the challenge of processing long
contextual information, inherent in quadratic attention mechanisms. Unlike
conventional compression-focused methods, our technique not only enhances
inference speed but also surpasses pre-training in terms of both accuracy and
efficiency. In the era of evolving LLMs, our work contributes to the pursuit of
sustainable AI solutions, striking a balance between computational power and
environmental impact.