Diffusion RWKV par blocs triplets

Résumé

Les modèles de langage Transformer causal souffrent d’un décodage strictement séquentiel et d’un coût d’attention quadratique par étape. Bien que les modèles causaux en temps linéaire et les modèles de diffusion discrets répondent chacun à ces faiblesses, leur intégration reste intrinsèquement incohérente : la diffusion nécessite une attention bidirectionnelle, tandis que les modèles causaux sont unidirectionnels. Pour unifier ces architectures, nous proposons B^3D-RWKV, une variante de diffusion RWKV qui combine l’efficacité d’inférence O(L) du modèle avec une diffusion discrète bidirectionnelle parallèle via une méthode de disposition en blocs triplets. B^3D-RWKV-7.2B atteint une précision comparable sur une suite de 8 tâches par rapport aux modèles existants, tout en surpassant significativement les références en matière de débit de décodage avec une accélération moyenne de 1,6 fois.

English

Causal Transformer language models suffer from strictly sequential decoding and a quadratic per-step attention cost. While linear-time causal models and discrete diffusion models each address these weaknesses, their integration remains inherently inconsistent: diffusion requires bidirectional attention, while causal models are unidirectional. To unify these architectures, we propose B^3D-RWKV, a diffusion RWKV variant that integrates the model's O(L) inference efficiency with parallel, bidirectional discrete-diffusion through a triplet-block layout method. B^3D-RWKV-7.2B reaches comparable accuracy on an 8-task suite versus existing models while significantly outperforming baselines in decoding throughput with an average of 1.6times speedup.