RADLADS: Distillazione Rapida dell'Attenzione verso Decodificatori con Attenzione Lineare su Scala
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
May 5, 2025
Autori: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI
Abstract
Presentiamo Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocollo per convertire rapidamente trasformatori con attenzione softmax in modelli decoder con attenzione lineare, insieme a due nuove architetture varianti RWKV e modelli convertiti dai popolari modelli open source Qwen2.5 nelle dimensioni 7B, 32B e 72B. Il nostro processo di conversione richiede solo 350-700M di token, meno dello 0,005% del numero di token utilizzati per addestrare i modelli insegnanti originali. La conversione nel nostro modello con attenzione lineare da 72B costa meno di \$2.000 USD ai prezzi odierni, eppure la qualità durante l'inferenza rimane vicina a quella del trasformatore originale. Questi modelli raggiungono prestazioni all'avanguardia su un insieme di benchmark standard per modelli con attenzione lineare della loro dimensione. Rilasciamo tutti i nostri modelli su HuggingFace sotto licenza Apache 2.0, ad eccezione dei nostri modelli da 72B che sono anche regolati dal Qwen License Agreement.
Modelli disponibili su
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Codice di addestramento su https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale
(RADLADS), a protocol for rapidly converting softmax attention transformers
into linear attention decoder models, along with two new RWKV-variant
architectures, and models converted from popular Qwen2.5 open source models in
7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens,
less than 0.005% of the token count used to train the original teacher models.
Converting to our 72B linear attention model costs less than \$2,000 USD at
today's prices, yet quality at inference remains close to the original
transformer. These models achieve state-of-the-art downstream performance
across a set of standard benchmarks for linear attention models of their size.
We release all our models on HuggingFace under the Apache 2.0 license, with the
exception of our 72B models which are also governed by the Qwen License
Agreement.
Models at
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Training Code at https://github.com/recursal/RADLADS-paper