ARWKV: Предварительное обучение не то, что нам нужно, модель языка на основе RNN с механизмом внимания, родившаяся из трансформера
ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer
January 26, 2025
Авторы: Lin Yueyu, Li Zhiyuan, Peter Yue, Liu Xiao
cs.AI
Аннотация
Как известно, гибридные квадратичные и субквадратичные модели внимания в многоголовых архитектурах превзошли как модели Трансформера, так и линейные RNN-модели, прежде всего сосредотачиваясь на снижении сложности KV и повышении эффективности. Для дальнейших исследований экспрессивности мы представляем нашу серию моделей, выведенных из Qwen 2.5, основанных на чистом родном внимании RWKV-7, которое направлено на увеличение экспрессивности RNN и демонстрирует способность к отслеживанию состояния выше возможностей трансформеров. Мы работаем с QRWK 32B на основе архитектуры RWKV-6, еще одним подходом, который сокращает время обработки всего объема знаний до 8 часов с использованием 16 графических процессоров AMD MI300X, сохраняя при этом производительность Qwen 2.5. Фактически, процесс дистилляции может использовать любой LLM, а не только Qwen, и обеспечивает передачу знаний от более крупных LLM к более маленьким с меньшим количеством токенов. Мы объясним подробный процесс и поделимся нашими идеями по созданию более мощных фундаментальных моделей. Обратите внимание, что это непрерывно развивающаяся работа. Чекпоинты модели и исходный код доступны по ссылкам https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
English
As is known, hybrid quadratic and subquadratic attention models in multi-head
architectures have surpassed both Transformer and Linear RNN models , with
these works primarily focusing on reducing KV complexity and improving
efficiency. For further research on expressiveness, we introduce our series of
models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which
aims to make RNN more expressive and demonstrates state tracking ability beyond
transformers. We work with QRWK 32B based on RWKV-6 architecture, another
approach that reduces the entire knowledge processing time to just 8 hours
using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the
distillation process can utilize any LLM, not just Qwen, and enables knowledge
transfer from larger LLMs to smaller ones with more fewer tokens. We will
explain the detailed process and share our insights on building more powerful
foundation models. Please note that this is an ongoing work that will be
updated continuously. The model checkpoints and source code are available at
https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside},
https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.Summary
AI-Generated Summary