Injection de conditions contrôlée sans attention multimodale : Vers des Transformers à attention linéaire contrôlables

Résumé

Les progrès récents en génération visuelle contrôlable par diffusion ont conduit à des améliorations remarquables de la qualité d'image. Cependant, ces modèles puissants sont généralement déployés sur des serveurs cloud en raison de leurs importantes exigences computationnelles, ce qui soulève de sérieuses préoccupations concernant la confidentialité des données utilisateur. Pour permettre une génération sécurisée et efficace sur les appareils, nous explorons dans cet article des modèles de diffusion contrôlable basés sur des architectures à attention linéaire, qui offrent une scalabilité et une efficacité supérieures, même sur les appareils edge. Pourtant, nos expériences révèlent que les cadres de génération contrôlable existants, tels que ControlNet et OminiControl, manquent soit de flexibilité pour prendre en charge plusieurs types de conditions hétérogènes, soit souffrent d'une convergence lente sur de tels modèles à attention linéaire. Pour remédier à ces limitations, nous proposons un nouveau cadre de diffusion contrôlable conçu pour des architectures à attention linéaire comme SANA. Le cœur de notre méthode réside dans un module de conditionnement à porte unifiée fonctionnant dans un pipeline à double voie, qui intègre efficacement des entrées conditionnelles de types multiples, telles que des indices spatialement alignés et non alignés. Des expériences approfondies sur plusieurs tâches et benchmarks démontrent que notre approche atteint des performances de pointe en génération contrôlable basée sur des modèles à attention linéaire, surpassant les méthodes existantes en termes de fidélité et de contrôlabilité.

English

Recent advances in diffusion-based controllable visual generation have led to remarkable improvements in image quality. However, these powerful models are typically deployed on cloud servers due to their large computational demands, raising serious concerns about user data privacy. To enable secure and efficient on-device generation, we explore in this paper controllable diffusion models built upon linear attention architectures, which offer superior scalability and efficiency, even on edge devices. Yet, our experiments reveal that existing controllable generation frameworks, such as ControlNet and OminiControl, either lack the flexibility to support multiple heterogeneous condition types or suffer from slow convergence on such linear-attention models. To address these limitations, we propose a novel controllable diffusion framework tailored for linear attention backbones like SANA. The core of our method lies in a unified gated conditioning module working in a dual-path pipeline, which effectively integrates multi-type conditional inputs, such as spatially aligned and non-aligned cues. Extensive experiments on multiple tasks and benchmarks demonstrate that our approach achieves state-of-the-art controllable generation performance based on linear-attention models, surpassing existing methods in terms of fidelity and controllability.

Injection de conditions contrôlée sans attention multimodale : Vers des Transformers à attention linéaire contrôlables

Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

Résumé

Support