RT-Lynx: De GEMM-sparsity op de juiste manier toepassen voor diffusiemodellen

Samenvatting

Diffusion Transformers (DiT) behalen sterke prestaties op het gebied van beeldgeneratie, maar gaan gepaard met aanzienlijke inferentiekosten. Hoewel eerder werk deze kosten heeft verlaagd via kwantisering en distillatie, blijft semi-gestructureerde sparsity, die de FLOPs bijna kan halveren, onderbelicht. Een belangrijke reden hiervoor is dat de meeste bestaande benaderingen zich richten op gewichtssparsificatie, en het snoeien van 50% van de gewichten kan de kritieke modelcapaciteit wegnemen en de generatiekwaliteit verminderen. Onze studie laat echter zien dat DiT-activaties intrinsiek schaars zijn en aanzienlijk robuuster tegen N:M semi-gestructureerde sparsificatie dan gewichten. Gemotiveerd door deze waarneming pleiten wij voor een paradigmaverschuiving van gewichtssparsificatie naar activatiesparsificatie. Wij stellen RT-Lynx voor, dat N:M-sparsificatie toepast op activaties en foutcompensatietechnieken integreert om nauwkeurigheidsverlies te beperken. Verder implementeren we hooggeoptimaliseerde CUDA-kernels die zijn afgestemd op deze instelling, wat leidt tot een gemiddelde versnelling van 1,55x in lineaire lagen. Uitgebreide experimenten met meerdere diffusiemodellen tonen aan dat onze methode de generatiekwaliteit van de oorspronkelijke modellen behoudt, terwijl de inferentie aanzienlijk wordt versneld.

English

Diffusion Transformers (DiT) achieve strong performance in image generation but incur substantial inference costs. While prior work has reduced this cost via quantization and distillation, semi-structured sparsity, which can nearly halve FLOPs, remains underexplored. A key reason is that most existing approaches focus on weight sparsification, and pruning 50% of the weights can remove critical model capacity and degrade generation quality. Our study, however, shows that DiT activations are intrinsically sparse and significantly more robust to N:M semi-structured sparsification than weights. Motivated by this observation, we advocate a paradigm shift from weight sparsification to activation sparsification. We propose RT-Lynx, which applies N:M sparsification to activations and incorporates error-compensation techniques to mitigate accuracy loss. We further implement highly optimized CUDA kernels tailored to this setting, achieving up to a 1.55x speedup on average in linear layers. Extensive experiments across multiple diffusion models demonstrate that our method preserves the generation quality of the original models while substantially accelerating inference.