RADLADS: Быстрое дистиллирование внимания в линейные декодеры внимания в масштабе
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
May 5, 2025
Авторы: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI
Аннотация
Мы представляем Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS) — протокол для быстрого преобразования трансформеров с softmax-вниманием в модели декодеров с линейным вниманием, а также две новые архитектуры на основе RWKV и модели, преобразованные из популярных открытых моделей Qwen2.5 размером 7B, 32B и 72B. Наш процесс преобразования требует всего 350–700 миллионов токенов, что составляет менее 0,005% от количества токенов, использованных для обучения исходных моделей-учителей. Преобразование в нашу 72B-модель с линейным вниманием обходится менее чем в 2000 долларов США по текущим ценам, при этом качество на этапе вывода остается близким к исходному трансформеру. Эти модели демонстрируют передовые результаты на наборе стандартных бенчмарков для моделей с линейным вниманием соответствующего размера. Мы публикуем все наши модели на HuggingFace под лицензией Apache 2.0, за исключением моделей размером 72B, которые также регулируются Лицензионным соглашением Qwen.
Модели доступны по адресу:
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Код для обучения:
https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale
(RADLADS), a protocol for rapidly converting softmax attention transformers
into linear attention decoder models, along with two new RWKV-variant
architectures, and models converted from popular Qwen2.5 open source models in
7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens,
less than 0.005% of the token count used to train the original teacher models.
Converting to our 72B linear attention model costs less than \$2,000 USD at
today's prices, yet quality at inference remains close to the original
transformer. These models achieve state-of-the-art downstream performance
across a set of standard benchmarks for linear attention models of their size.
We release all our models on HuggingFace under the Apache 2.0 license, with the
exception of our 72B models which are also governed by the Qwen License
Agreement.
Models at
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Training Code at https://github.com/recursal/RADLADS-paperSummary
AI-Generated Summary