Gegatingde Conditie-injectie zonder Multimodale Aandacht: Op Weg naar Beheerbare Lineaire-Aandacht-Transformers
Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers
March 29, 2026
Auteurs: Yuhe Liu, Zhenxiong Tan, Yujia Hu, Songhua Liu, Xinchao Wang
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde, stuurbare visuele generatie heeft geleid tot opmerkelijke verbeteringen in beeldkwaliteit. Deze krachtige modellen worden echter doorgaans op cloudservers geïmplementeerd vanwege hun grote rekenbehoefte, wat ernstige zorgen over de privacy van gebruikersgegevens met zich meebrengt. Om veilige en efficiënte generatie op het apparaat zelf mogelijk te maken, onderzoeken we in dit artikel stuurbare diffusiemodellen die zijn gebouwd op lineaire aandacht-architecturen. Deze bieden superieure schaalbaarheid en efficiëntie, zelfs op edge-apparaten. Onze experimenten tonen echter aan dat bestaande frameworks voor stuurbare generatie, zoals ControlNet en OminiControl, ofwel de flexibiliteit missen om meerdere heterogene conditietypen te ondersteunen, of te kampen hebben met een trage convergentie op dergelijke lineaire-aandacht-modellen. Om deze beperkingen aan te pakken, stellen we een nieuw kader voor stuurbare diffusie voor, afgestemd op lineaire aandacht-backbones zoals SANA. De kern van onze methode ligt in een uniforme, gegate conditioneringmodule die werkt in een dual-path pijplijn. Deze integreert effectief meerdere typen conditionele invoer, zoals ruimtelijk uitgelijnde en niet-uitgelijnde signalen. Uitgebreide experimenten op meerdere taken en benchmarks tonen aan dat onze aanzet state-of-the-art prestaties levert voor stuurbare generatie op basis van lineaire-aandacht-modellen, en daarbij bestaande methoden overtreft op het gebied van nauwkeurigheid en stuurbaarheid.
English
Recent advances in diffusion-based controllable visual generation have led to remarkable improvements in image quality. However, these powerful models are typically deployed on cloud servers due to their large computational demands, raising serious concerns about user data privacy. To enable secure and efficient on-device generation, we explore in this paper controllable diffusion models built upon linear attention architectures, which offer superior scalability and efficiency, even on edge devices. Yet, our experiments reveal that existing controllable generation frameworks, such as ControlNet and OminiControl, either lack the flexibility to support multiple heterogeneous condition types or suffer from slow convergence on such linear-attention models. To address these limitations, we propose a novel controllable diffusion framework tailored for linear attention backbones like SANA. The core of our method lies in a unified gated conditioning module working in a dual-path pipeline, which effectively integrates multi-type conditional inputs, such as spatially aligned and non-aligned cues. Extensive experiments on multiple tasks and benchmarks demonstrate that our approach achieves state-of-the-art controllable generation performance based on linear-attention models, surpassing existing methods in terms of fidelity and controllability.