ARWKV: Preentrenar no es lo que necesitamos, un Modelo de Lenguaje basado en RNN-Atención nacido del Transformer
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
January 26, 2025
Autores: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI
Resumen
Como se sabe, los modelos de atención híbridos cuadráticos y subcuadráticos en arquitecturas multi-head han superado tanto a los modelos Transformer como a los RNN lineales, centrándose principalmente en reducir la complejidad KV y mejorar la eficiencia. Para investigaciones adicionales sobre la expresividad, presentamos nuestra serie de modelos destilados de Qwen 2.5, basados en atención nativa pura RWKV-7, que tiene como objetivo hacer que los RNN sean más expresivos y demuestran una capacidad de seguimiento de estado más allá de los transformers. Trabajamos con QRWK 32B basado en la arquitectura RWKV-6, otro enfoque que reduce el tiempo completo de procesamiento de conocimiento a solo 8 horas utilizando 16 GPUs AMD MI300X, manteniendo el rendimiento de Qwen 2.5. De hecho, el proceso de destilación puede utilizar cualquier LLM, no solo Qwen, y permite la transferencia de conocimiento de LLM más grandes a otros más pequeños con menos tokens. Explicaremos el proceso detallado y compartiremos nuestras ideas sobre la construcción de modelos base más potentes. Tenga en cuenta que este es un trabajo en curso que se actualizará continuamente. Los puntos de control del modelo y el código fuente están disponibles en https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
English
As is known, hybrid quadratic and subquadratic attention models in multi-head
architectures have surpassed both Transformer and Linear RNN models , with
these works primarily focusing on reducing KV complexity and improving
efficiency. For further research on expressiveness, we introduce our series of
models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which
aims to make RNN more expressive and demonstrates state tracking ability beyond
transformers. We work with QRWK 32B based on RWKV-6 architecture, another
approach that reduces the entire knowledge processing time to just 8 hours
using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the
distillation process can utilize any LLM, not just Qwen, and enables knowledge
transfer from larger LLMs to smaller ones with more fewer tokens. We will
explain the detailed process and share our insights on building more powerful
foundation models. Please note that this is an ongoing work that will be
updated continuously. The model checkpoints and source code are available at
https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside},
https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.Summary
AI-Generated Summary