ARWKV : La préformation n'est pas ce dont nous avons besoin, un modèle de langage basé sur RNN-Attention né du Transformer.

ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

January 26, 2025
Auteurs: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI

Résumé

Comme on le sait, les modèles d'attention hybrides quadratiques et sous-quadratiques dans les architectures à plusieurs têtes ont surpassé à la fois les modèles Transformer et RNN linéaires, ces travaux se concentrant principalement sur la réduction de la complexité KV et l'amélioration de l'efficacité. Pour des recherches plus poussées sur l'expressivité, nous introduisons notre série de modèles distillés à partir de Qwen 2.5, basés sur une attention RWKV-7 purement native, qui vise à rendre les RNN plus expressifs et à démontrer une capacité de suivi de l'état au-delà des transformers. Nous travaillons avec QRWK 32B basé sur l'architecture RWKV-6, une autre approche qui réduit le temps de traitement des connaissances complet à seulement 8 heures en utilisant 16 GPU AMD MI300X tout en maintenant les performances de Qwen 2.5. En fait, le processus de distillation peut utiliser n'importe quel LLM, pas seulement Qwen, et permet le transfert de connaissances des LLM plus grands vers des plus petits avec moins de jetons. Nous expliquerons le processus détaillé et partagerons nos idées sur la construction de modèles de base plus puissants. Veuillez noter qu'il s'agit d'un travail en cours qui sera mis à jour continuellement. Les points de contrôle du modèle et le code source sont disponibles sur https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
English
As is known, hybrid quadratic and subquadratic attention models in multi-head architectures have surpassed both Transformer and Linear RNN models , with these works primarily focusing on reducing KV complexity and improving efficiency. For further research on expressiveness, we introduce our series of models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which aims to make RNN more expressive and demonstrates state tracking ability beyond transformers. We work with QRWK 32B based on RWKV-6 architecture, another approach that reduces the entire knowledge processing time to just 8 hours using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the distillation process can utilize any LLM, not just Qwen, and enables knowledge transfer from larger LLMs to smaller ones with more fewer tokens. We will explain the detailed process and share our insights on building more powerful foundation models. Please note that this is an ongoing work that will be updated continuously. The model checkpoints and source code are available at https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside}, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.

Summary

AI-Generated Summary

PDF252January 28, 2025