Difusão RWKV de Bloco Tripleto

Resumo

Modelos de linguagem Transformer causais sofrem com decodificação estritamente sequencial e um custo quadrático de atenção por etapa. Embora modelos causais de tempo linear e modelos de difusão discreta abordem cada uma dessas fraquezas, sua integração permanece inerentemente inconsistente: a difusão requer atenção bidirecional, enquanto os modelos causais são unidirecionais. Para unificar essas arquiteturas, propomos o B^3D-RWKV, uma variante do RWKV de difusão que integra a eficiência de inferência O(L) do modelo com difusão discreta bidirecional paralela por meio de um método de disposição de blocos triplos. O B^3D-RWKV-7.2B atinge precisão comparável em um conjunto de 8 tarefas em relação aos modelos existentes, superando significativamente as linhas de base em taxa de decodificação, com uma aceleração média de 1,6 vezes.

English

Causal Transformer language models suffer from strictly sequential decoding and a quadratic per-step attention cost. While linear-time causal models and discrete diffusion models each address these weaknesses, their integration remains inherently inconsistent: diffusion requires bidirectional attention, while causal models are unidirectional. To unify these architectures, we propose B^3D-RWKV, a diffusion RWKV variant that integrates the model's O(L) inference efficiency with parallel, bidirectional discrete-diffusion through a triplet-block layout method. B^3D-RWKV-7.2B reaches comparable accuracy on an 8-task suite versus existing models while significantly outperforming baselines in decoding throughput with an average of 1.6times speedup.