RADLADS : Distillation Rapide de l'Attention vers des Décodeurs à Attention Linéaire à Grande Échelle
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale
May 5, 2025
Auteurs: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI
Résumé
Nous présentons Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocole permettant de convertir rapidement des transformeurs à attention softmax en modèles décodeurs à attention linéaire, ainsi que deux nouvelles architectures de type RWKV et des modèles convertis à partir des modèles open source populaires Qwen2.5 en tailles 7B, 32B et 72B. Notre processus de conversion nécessite seulement 350 à 700 millions de tokens, soit moins de 0,005 % du nombre de tokens utilisés pour entraîner les modèles enseignants originaux. La conversion vers notre modèle à attention linéaire de 72B coûte moins de 2 000 USD aux prix actuels, tout en maintenant une qualité d'inférence proche de celle du transformeur original. Ces modèles atteignent des performances de pointe sur un ensemble de benchmarks standards pour les modèles à attention linéaire de leur taille. Nous publions tous nos modèles sur HuggingFace sous licence Apache 2.0, à l'exception de nos modèles 72B qui sont également régis par le Qwen License Agreement.
Modèles disponibles sur
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Code d'entraînement sur https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale
(RADLADS), a protocol for rapidly converting softmax attention transformers
into linear attention decoder models, along with two new RWKV-variant
architectures, and models converted from popular Qwen2.5 open source models in
7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens,
less than 0.005% of the token count used to train the original teacher models.
Converting to our 72B linear attention model costs less than \$2,000 USD at
today's prices, yet quality at inference remains close to the original
transformer. These models achieve state-of-the-art downstream performance
across a set of standard benchmarks for linear attention models of their size.
We release all our models on HuggingFace under the Apache 2.0 license, with the
exception of our 72B models which are also governed by the Qwen License
Agreement.
Models at
https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102
Training Code at https://github.com/recursal/RADLADS-paperSummary
AI-Generated Summary