Aasgeier: Destillieren von Transformern in Langfaltungsmodelle
Scavenging Hyena: Distilling Transformers into Long Convolution Models
January 31, 2024
Autoren: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI
Zusammenfassung
Die rasante Entwicklung von Large Language Models (LLMs), verkörpert durch Architekturen wie GPT-4, hat die Landschaft der natürlichen Sprachverarbeitung neu gestaltet. Dieses Papier stellt einen bahnbrechenden Ansatz vor, um die Effizienzprobleme im Zusammenhang mit dem Pre-Training von LLMs zu adressieren, und schlägt die Verwendung von Knowledge Distillation für den architekturübergreifenden Transfer vor. Indem wir Erkenntnisse aus dem effizienten Hyena-Mechanismus nutzen, ersetzen wir in unserem Ansatz die Attention Heads in Transformer-Modellen durch Hyena, was eine kostengünstige Alternative zum traditionellen Pre-Training bietet und gleichzeitig die Herausforderung der Verarbeitung langer kontextueller Informationen, die in quadratischen Attention-Mechanismen inhärent ist, bewältigt. Im Gegensatz zu herkömmlichen, auf Kompression fokussierten Methoden verbessert unsere Technik nicht nur die Inferenzgeschwindigkeit, sondern übertrifft das Pre-Training auch in Bezug auf Genauigkeit und Effizienz. In der Ära der sich weiterentwickelnden LLMs trägt unsere Arbeit zur Verfolgung nachhaltiger KI-Lösungen bei und schafft ein Gleichgewicht zwischen Rechenleistung und Umweltauswirkungen.
English
The rapid evolution of Large Language Models (LLMs), epitomized by
architectures like GPT-4, has reshaped the landscape of natural language
processing. This paper introduces a pioneering approach to address the
efficiency concerns associated with LLM pre-training, proposing the use of
knowledge distillation for cross-architecture transfer. Leveraging insights
from the efficient Hyena mechanism, our method replaces attention heads in
transformer models by Hyena, offering a cost-effective alternative to
traditional pre-training while confronting the challenge of processing long
contextual information, inherent in quadratic attention mechanisms. Unlike
conventional compression-focused methods, our technique not only enhances
inference speed but also surpasses pre-training in terms of both accuracy and
efficiency. In the era of evolving LLMs, our work contributes to the pursuit of
sustainable AI solutions, striking a balance between computational power and
environmental impact.