RADLADS: Distilação Rápida de Atenção para Decodificadores de Atenção Linear em Escala
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
May 5, 2025
Autores: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI
Resumo
Apresentamos o Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), um protocolo para converter rapidamente transformadores com atenção softmax em modelos de decodificadores com atenção linear, juntamente com duas novas arquiteturas variantes do RWKV e modelos convertidos a partir dos populares modelos de código aberto Qwen2.5 nos tamanhos 7B, 32B e 72B. Nosso processo de conversão requer apenas 350-700 milhões de tokens, menos de 0,005% da quantidade de tokens usada para treinar os modelos originais (professores). A conversão para nosso modelo de atenção linear de 72B custa menos de US$ 2.000 pelos preços atuais, mas a qualidade na inferência permanece próxima à do transformador original. Esses modelos alcançam desempenho de ponta em um conjunto de benchmarks padrão para modelos de atenção linear de seu tamanho. Disponibilizamos todos os nossos modelos no HuggingFace sob a licença Apache 2.0, com exceção dos modelos de 72B, que também são regidos pelo Acordo de Licença Qwen.
Modelos em
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Código de treinamento em https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale
(RADLADS), a protocol for rapidly converting softmax attention transformers
into linear attention decoder models, along with two new RWKV-variant
architectures, and models converted from popular Qwen2.5 open source models in
7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens,
less than 0.005% of the token count used to train the original teacher models.
Converting to our 72B linear attention model costs less than \$2,000 USD at
today's prices, yet quality at inference remains close to the original
transformer. These models achieve state-of-the-art downstream performance
across a set of standard benchmarks for linear attention models of their size.
We release all our models on HuggingFace under the Apache 2.0 license, with the
exception of our 72B models which are also governed by the Qwen License
Agreement.
Models at
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Training Code at https://github.com/recursal/RADLADS-paper