ChatPaper.aiChatPaper

Hyena als Aaseter: Het destilleren van Transformers naar Lange Convolutiemodellen

Scavenging Hyena: Distilling Transformers into Long Convolution Models

January 31, 2024
Auteurs: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI

Samenvatting

De snelle evolutie van Large Language Models (LLM's), belichaamd door architecturen zoals GPT-4, heeft het landschap van natuurlijke taalverwerking ingrijpend veranderd. Dit artikel introduceert een baanbrekende aanpak om de efficiëntieproblemen die gepaard gaan met het vooraf trainen van LLM's aan te pakken, waarbij het gebruik van kennisdistillatie voor cross-architectuurtransfer wordt voorgesteld. Door inzichten uit het efficiënte Hyena-mechanisme te benutten, vervangt onze methode aandachtskoppen in transformermodellen door Hyena, wat een kosteneffectief alternatief biedt voor traditionele voorafgaande training, terwijl het de uitdaging van het verwerken van lange contextuele informatie, inherent aan kwadratische aandachtmechanismen, aanpakt. In tegenstelling tot conventionele methoden die zich richten op compressie, verbetert onze techniek niet alleen de inferentiesnelheid, maar overtreft het ook de voorafgaande training wat betreft zowel nauwkeurigheid als efficiëntie. In het tijdperk van evoluerende LLM's draagt ons werk bij aan de zoektocht naar duurzame AI-oplossingen, waarbij een balans wordt gevonden tussen rekenkracht en milieueffect.
English
The rapid evolution of Large Language Models (LLMs), epitomized by architectures like GPT-4, has reshaped the landscape of natural language processing. This paper introduces a pioneering approach to address the efficiency concerns associated with LLM pre-training, proposing the use of knowledge distillation for cross-architecture transfer. Leveraging insights from the efficient Hyena mechanism, our method replaces attention heads in transformer models by Hyena, offering a cost-effective alternative to traditional pre-training while confronting the challenge of processing long contextual information, inherent in quadratic attention mechanisms. Unlike conventional compression-focused methods, our technique not only enhances inference speed but also surpasses pre-training in terms of both accuracy and efficiency. In the era of evolving LLMs, our work contributes to the pursuit of sustainable AI solutions, striking a balance between computational power and environmental impact.
PDF171February 8, 2026