ARWKV: Pré-treino não é o que precisamos, um Modelo de Linguagem Baseado em RNN-Atenção Nascido do Transformer
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
January 26, 2025
Autores: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI
Resumo
Como é sabido, os modelos de atenção híbridos quadráticos e subquadráticos em arquiteturas multi-head superaram tanto os modelos Transformer quanto os modelos RNN Lineares, com esses trabalhos focando principalmente na redução da complexidade KV e na melhoria da eficiência. Para pesquisas adicionais sobre a expressividade, introduzimos nossa série de modelos destilados do Qwen 2.5, baseados na atenção puramente nativa RWKV-7, que tem como objetivo tornar os RNNs mais expressivos e demonstrar habilidade de rastreamento de estado além dos transformers. Trabalhamos com o QRWK 32B baseado na arquitetura RWKV-6, outra abordagem que reduz o tempo total de processamento de conhecimento para apenas 8 horas usando 16 GPUs AMD MI300X, mantendo o desempenho do Qwen 2.5. Na verdade, o processo de destilação pode utilizar qualquer LLM, não apenas o Qwen, e permite a transferência de conhecimento de LLMs maiores para menores com menos tokens. Explicaremos o processo detalhado e compartilharemos nossas percepções sobre a construção de modelos de base mais poderosos. Por favor, note que este é um trabalho em andamento que será atualizado continuamente. Os pontos de verificação do modelo e o código-fonte estão disponíveis em https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
English
As is known, hybrid quadratic and subquadratic attention models in multi-head
architectures have surpassed both Transformer and Linear RNN models , with
these works primarily focusing on reducing KV complexity and improving
efficiency. For further research on expressiveness, we introduce our series of
models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which
aims to make RNN more expressive and demonstrates state tracking ability beyond
transformers. We work with QRWK 32B based on RWKV-6 architecture, another
approach that reduces the entire knowledge processing time to just 8 hours
using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the
distillation process can utilize any LLM, not just Qwen, and enables knowledge
transfer from larger LLMs to smaller ones with more fewer tokens. We will
explain the detailed process and share our insights on building more powerful
foundation models. Please note that this is an ongoing work that will be
updated continuously. The model checkpoints and source code are available at
https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside},
https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.Summary
AI-Generated Summary