ChatPaper.aiChatPaper

RADLADS: Distilación Rápida de Atención hacia Decodificadores de Atención Lineal a Escala

RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5, 2025
Autores: Daniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah
cs.AI

Resumen

Presentamos Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), un protocolo para convertir rápidamente transformadores con atención softmax en modelos de decodificadores con atención lineal, junto con dos nuevas arquitecturas variantes de RWKV y modelos convertidos a partir de los populares modelos de código abierto Qwen2.5 en tamaños de 7B, 32B y 72B. Nuestro proceso de conversión requiere solo entre 350 y 700 millones de tokens, menos del 0.005% del total de tokens utilizados para entrenar los modelos maestros originales. Convertir a nuestro modelo de atención lineal de 72B cuesta menos de \$2,000 USD al precio actual, y la calidad en la inferencia se mantiene cercana a la del transformador original. Estos modelos logran un rendimiento de vanguardia en un conjunto de benchmarks estándar para modelos de atención lineal de su tamaño. Publicamos todos nuestros modelos en HuggingFace bajo la licencia Apache 2.0, con la excepción de nuestros modelos de 72B, que también están regidos por el Acuerdo de Licencia Qwen. Modelos disponibles en: https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Código de entrenamiento en: https://github.com/recursal/RADLADS-paper
English
We present Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), a protocol for rapidly converting softmax attention transformers into linear attention decoder models, along with two new RWKV-variant architectures, and models converted from popular Qwen2.5 open source models in 7B, 32B, and 72B sizes. Our conversion process requires only 350-700M tokens, less than 0.005% of the token count used to train the original teacher models. Converting to our 72B linear attention model costs less than \$2,000 USD at today's prices, yet quality at inference remains close to the original transformer. These models achieve state-of-the-art downstream performance across a set of standard benchmarks for linear attention models of their size. We release all our models on HuggingFace under the Apache 2.0 license, with the exception of our 72B models which are also governed by the Qwen License Agreement. Models at https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Training Code at https://github.com/recursal/RADLADS-paper

Summary

AI-Generated Summary

PDF251May 7, 2025