Diffusion-RWKV: Scalabilità delle Architetture Simili a RWKV per Modelli di Diffusione

Abstract

I Transformer hanno catalizzato progressi nei campi della visione artificiale e dell'elaborazione del linguaggio naturale (NLP). Tuttavia, la notevole complessità computazionale pone limitazioni alla loro applicazione in compiti a contesto lungo, come la generazione di immagini ad alta risoluzione. Questo articolo introduce una serie di architetture adattate dal modello RWKV utilizzato in NLP, con le necessarie modifiche appositamente progettate per i modelli di diffusione applicati ai compiti di generazione di immagini, denominati Diffusion-RWKV. Similmente alla diffusione con i Transformer, il nostro modello è progettato per gestire in modo efficiente input suddivisi in patch in una sequenza con condizioni aggiuntive, scalando efficacemente e supportando sia parametri su larga scala che dataset estesi. Il suo vantaggio distintivo si manifesta nella ridotta complessità di aggregazione spaziale, rendendolo eccezionalmente abile nel processare immagini ad alta risoluzione, eliminando così la necessità di operazioni di finestratura o caching di gruppo. I risultati sperimentali su compiti di generazione di immagini condizionata e non condizionata dimostrano che Diffusion-RWKV raggiunge prestazioni pari o superiori ai modelli di diffusione basati su CNN o Transformer nelle metriche FID e IS, riducendo significativamente l'utilizzo totale di FLOP computazionali.

English

Transformers have catalyzed advancements in computer vision and natural language processing (NLP) fields. However, substantial computational complexity poses limitations for their application in long-context tasks, such as high-resolution image generation. This paper introduces a series of architectures adapted from the RWKV model used in the NLP, with requisite modifications tailored for diffusion model applied to image generation tasks, referred to as Diffusion-RWKV. Similar to the diffusion with Transformers, our model is designed to efficiently handle patchnified inputs in a sequence with extra conditions, while also scaling up effectively, accommodating both large-scale parameters and extensive datasets. Its distinctive advantage manifests in its reduced spatial aggregation complexity, rendering it exceptionally adept at processing high-resolution images, thereby eliminating the necessity for windowing or group cached operations. Experimental results on both condition and unconditional image generation tasks demonstrate that Diffison-RWKV achieves performance on par with or surpasses existing CNN or Transformer-based diffusion models in FID and IS metrics while significantly reducing total computation FLOP usage.

Diffusion-RWKV: Scalabilità delle Architetture Simili a RWKV per Modelli di Diffusione

Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

Abstract

Support