RADLADS: Schnelle Aufmerksamkeitsdestillation für lineare Aufmerksamkeitsdecoder im großen Maßstab
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
May 5, 2025
Autoren: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI
Zusammenfassung
Wir präsentieren Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), ein Protokoll zur schnellen Umwandlung von Softmax-Attention-Transformern in Linear-Attention-Decoder-Modelle, zusammen mit zwei neuen RWKV-Varianten-Architekturen und Modellen, die aus beliebten Qwen2.5 Open-Source-Modellen in den Größen 7B, 32B und 72B konvertiert wurden. Unser Konvertierungsprozess erfordert lediglich 350-700M Tokens, weniger als 0,005 % der Token-Anzahl, die zum Trainieren der ursprünglichen Lehrer-Modelle verwendet wurde. Die Umwandlung in unser 72B Linear-Attention-Modell kostet weniger als 2.000 USD zu heutigen Preisen, während die Qualität bei der Inferenz nahe am ursprünglichen Transformer bleibt. Diese Modelle erzielen state-of-the-art Downstream-Leistungen über eine Reihe von Standard-Benchmarks für Linear-Attention-Modelle ihrer Größe. Wir veröffentlichen alle unsere Modelle auf HuggingFace unter der Apache-2.0-Lizenz, mit Ausnahme unserer 72B-Modelle, die auch durch das Qwen-Lizenzabkommen geregelt sind.
Modelle unter
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Trainingscode unter https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale
(RADLADS), a protocol for rapidly converting softmax attention transformers
into linear attention decoder models, along with two new RWKV-variant
architectures, and models converted from popular Qwen2.5 open source models in
7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens,
less than 0.005% of the token count used to train the original teacher models.
Converting to our 72B linear attention model costs less than \$2,000 USD at
today's prices, yet quality at inference remains close to the original
transformer. These models achieve state-of-the-art downstream performance
across a set of standard benchmarks for linear attention models of their size.
We release all our models on HuggingFace under the Apache 2.0 license, with the
exception of our 72B models which are also governed by the Qwen License
Agreement.
Models at
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Training Code at https://github.com/recursal/RADLADS-paperSummary
AI-Generated Summary