ARWKV: プリトレーニングは必要ない、Transformerから生まれたRNN-Attentionベースの言語モデル
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
January 26, 2025
著者: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI
要旨
既知の通り、マルチヘッドアーキテクチャにおけるハイブリッド二次およびサブ二次注意モデルは、Transformerおよび線形RNNモデルを凌駕し、これらの研究は主にKVの複雑さを削減し、効率を向上させることに焦点を当てています。表現力に関するさらなる研究では、純粋なネイティブRWKV-7注意に基づくQwen 2.5から抽出されたモデルシリーズを紹介し、これによりRNNをより表現豊かにし、Transformerを超えた状態追跡能力を示します。RWKV-6アーキテクチャに基づくQRWK 32Bで作業し、16台のAMD MI300X GPUを使用して全体の知識処理時間をわずか8時間に短縮する別の手法を採用し、Qwen 2.5の性能を維持します。実際、蒸留プロセスは、Qwenだけでなく任意のLLMを利用でき、より少ないトークンを持つ小さなLLMへのより大きなLLMからの知識移転を可能にします。より強力な基本モデルの構築に関する詳細なプロセスと洞察を説明し、共有します。これは継続的に更新される進行中の作業であることに注意してください。モデルのチェックポイントとソースコードは、以下のリンクから入手可能です:https://github.com/yynil/RWKVInside、https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1。
English
As is known, hybrid quadratic and subquadratic attention models in multi-head
architectures have surpassed both Transformer and Linear RNN models , with
these works primarily focusing on reducing KV complexity and improving
efficiency. For further research on expressiveness, we introduce our series of
models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which
aims to make RNN more expressive and demonstrates state tracking ability beyond
transformers. We work with QRWK 32B based on RWKV-6 architecture, another
approach that reduces the entire knowledge processing time to just 8 hours
using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the
distillation process can utilize any LLM, not just Qwen, and enables knowledge
transfer from larger LLMs to smaller ones with more fewer tokens. We will
explain the detailed process and share our insights on building more powerful
foundation models. Please note that this is an ongoing work that will be
updated continuously. The model checkpoints and source code are available at
https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside},
https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.Summary
AI-Generated Summary