ARWKV: Il preaddestramento non è ciò di cui abbiamo bisogno, un Modello di Linguaggio basato su RNN-Attention nato dal Transformer
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
January 26, 2025
Autori: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI
Abstract
Come è noto, i modelli di attenzione ibridi quadratici e subquadratici nelle architetture multi-head hanno superato sia i modelli Transformer che quelli RNN lineari, con questi lavori che si concentrano principalmente sulla riduzione della complessità KV e sull'ottimizzazione dell'efficienza. Per ulteriori ricerche sull'espressività, presentiamo la nostra serie di modelli distillati da Qwen 2.5, basati sull'attenzione nativa pura RWKV-7, che mira a rendere gli RNN più espressivi e dimostra capacità di tracciamento dello stato oltre ai transformer. Lavoriamo con QRWK 32B basato sull'architettura RWKV-6, un altro approccio che riduce l'intero tempo di elaborazione della conoscenza a soli 8 ore utilizzando 16 GPU AMD MI300X, mantenendo le prestazioni di Qwen 2.5. Infatti, il processo di distillazione può utilizzare qualsiasi LLM, non solo Qwen, e consente il trasferimento di conoscenza da LLM più grandi a quelli più piccoli con meno token. Spiegheremo il processo dettagliato e condivideremo le nostre intuizioni sulla costruzione di modelli fondamentali più potenti. Si noti che si tratta di un lavoro in corso che verrà aggiornato continuamente. I checkpoint del modello e il codice sorgente sono disponibili su https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
English
As is known, hybrid quadratic and subquadratic attention models in multi-head
architectures have surpassed both Transformer and Linear RNN models , with
these works primarily focusing on reducing KV complexity and improving
efficiency. For further research on expressiveness, we introduce our series of
models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which
aims to make RNN more expressive and demonstrates state tracking ability beyond
transformers. We work with QRWK 32B based on RWKV-6 architecture, another
approach that reduces the entire knowledge processing time to just 8 hours
using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the
distillation process can utilize any LLM, not just Qwen, and enables knowledge
transfer from larger LLMs to smaller ones with more fewer tokens. We will
explain the detailed process and share our insights on building more powerful
foundation models. Please note that this is an ongoing work that will be
updated continuously. The model checkpoints and source code are available at
https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside},
https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.