Гиена-падальщик: дистилляция трансформеров в модели с длинными свертками
Scavenging Hyena: Distilling Transformers into Long Convolution Models
January 31, 2024
Авторы: Tokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang
cs.AI
Аннотация
Быстрое развитие крупных языковых моделей (LLM), ярким примером которых являются архитектуры вроде GPT-4, изменило ландшафт обработки естественного языка. В данной статье представлен новаторский подход для решения проблем эффективности, связанных с предварительным обучением LLM, предлагая использование дистилляции знаний для кросс-архитектурного переноса. Используя идеи эффективного механизма Hyena, наш метод заменяет механизмы внимания в трансформерных моделях на Hyena, предлагая экономичную альтернативу традиционному предварительному обучению, одновременно решая задачу обработки длинных контекстных данных, присущую квадратичным механизмам внимания. В отличие от традиционных методов, ориентированных на сжатие, наша техника не только повышает скорость вывода, но и превосходит предварительное обучение как по точности, так и по эффективности. В эпоху развивающихся LLM наша работа способствует поиску устойчивых решений в области ИИ, достигая баланса между вычислительной мощностью и воздействием на окружающую среду.
English
The rapid evolution of Large Language Models (LLMs), epitomized by
architectures like GPT-4, has reshaped the landscape of natural language
processing. This paper introduces a pioneering approach to address the
efficiency concerns associated with LLM pre-training, proposing the use of
knowledge distillation for cross-architecture transfer. Leveraging insights
from the efficient Hyena mechanism, our method replaces attention heads in
transformer models by Hyena, offering a cost-effective alternative to
traditional pre-training while confronting the challenge of processing long
contextual information, inherent in quadratic attention mechanisms. Unlike
conventional compression-focused methods, our technique not only enhances
inference speed but also surpasses pre-training in terms of both accuracy and
efficiency. In the era of evolving LLMs, our work contributes to the pursuit of
sustainable AI solutions, striking a balance between computational power and
environmental impact.