ChatPaper.aiChatPaper

RADLADS: Snelle Aandachtsdistillatie naar Lineaire Aandachtsdecoders op Schaal

RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5, 2025
Auteurs: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI

Samenvatting

We presenteren Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), een protocol voor het snel omzetten van softmax attention transformers naar lineaire attention decoder-modellen, samen met twee nieuwe RWKV-variantarchitecturen en modellen die zijn geconverteerd van populaire Qwen2.5 open source-modellen in 7B, 32B en 72B formaten. Ons conversieproces vereist slechts 350-700M tokens, minder dan 0,005% van het aantal tokens dat is gebruikt om de originele leraarmodellen te trainen. Het omzetten naar ons 72B lineaire attention-model kost minder dan \$2.000 USD tegen de huidige prijzen, terwijl de kwaliteit tijdens inferentie dicht bij die van de originele transformer blijft. Deze modellen behalen state-of-the-art prestaties op een reeks standaardbenchmarks voor lineaire attention-modellen van hun grootte. We maken al onze modellen beschikbaar op HuggingFace onder de Apache 2.0-licentie, met uitzondering van onze 72B-modellen die ook vallen onder de Qwen License Agreement. Modellen op https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Trainingscode op https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), a protocol for rapidly converting softmax attention transformers into linear attention decoder models, along with two new RWKV-variant architectures, and models converted from popular Qwen2.5 open source models in 7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens, less than 0.005% of the token count used to train the original teacher models. Converting to our 72B linear attention model costs less than \$2,000 USD at today's prices, yet quality at inference remains close to the original transformer. These models achieve state-of-the-art downstream performance across a set of standard benchmarks for linear attention models of their size. We release all our models on HuggingFace under the Apache 2.0 license, with the exception of our 72B models which are also governed by the Qwen License Agreement. Models at https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Training Code at https://github.com/recursal/RADLADS-paper
PDF361May 7, 2025