ARWKV: Preentrenar no es lo que necesitamos, un Modelo de Lenguaje basado en RNN-Atención nacido del Transformer

Resumen

Como se sabe, los modelos de atención híbridos cuadráticos y subcuadráticos en arquitecturas multi-head han superado tanto a los modelos Transformer como a los RNN lineales, centrándose principalmente en reducir la complejidad KV y mejorar la eficiencia. Para investigaciones adicionales sobre la expresividad, presentamos nuestra serie de modelos destilados de Qwen 2.5, basados en atención nativa pura RWKV-7, que tiene como objetivo hacer que los RNN sean más expresivos y demuestran una capacidad de seguimiento de estado más allá de los transformers. Trabajamos con QRWK 32B basado en la arquitectura RWKV-6, otro enfoque que reduce el tiempo completo de procesamiento de conocimiento a solo 8 horas utilizando 16 GPUs AMD MI300X, manteniendo el rendimiento de Qwen 2.5. De hecho, el proceso de destilación puede utilizar cualquier LLM, no solo Qwen, y permite la transferencia de conocimiento de LLM más grandes a otros más pequeños con menos tokens. Explicaremos el proceso detallado y compartiremos nuestras ideas sobre la construcción de modelos base más potentes. Tenga en cuenta que este es un trabajo en curso que se actualizará continuamente. Los puntos de control del modelo y el código fuente están disponibles en https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.

English

As is known, hybrid quadratic and subquadratic attention models in multi-head architectures have surpassed both Transformer and Linear RNN models , with these works primarily focusing on reducing KV complexity and improving efficiency. For further research on expressiveness, we introduce our series of models distilled from Qwen 2.5, based on pure native RWKV-7 attention, which aims to make RNN more expressive and demonstrates state tracking ability beyond transformers. We work with QRWK 32B based on RWKV-6 architecture, another approach that reduces the entire knowledge processing time to just 8 hours using 16 AMD MI300X GPUs while maintaining Qwen 2.5's performance. In fact, the distillation process can utilize any LLM, not just Qwen, and enables knowledge transfer from larger LLMs to smaller ones with more fewer tokens. We will explain the detailed process and share our insights on building more powerful foundation models. Please note that this is an ongoing work that will be updated continuously. The model checkpoints and source code are available at https://github.com/yynil/RWKVInside{https://github.com/yynil/RWKVInside}, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1{https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1}.

ARWKV: Preentrenar no es lo que necesitamos, un Modelo de Lenguaje basado en RNN-Atención nacido del Transformer

ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

Resumen

Support