Gated Condition Injection ohne Multimodale Aufmerksamkeit: Auf dem Weg zu steuerbaren Linear-Attention-Transformern

Zusammenfassung

Jüngste Fortschritte bei diffusionsbasierten, steuerbaren visuellen Generierungsverfahren haben zu bemerkenswerten Verbesserungen der Bildqualität geführt. Diese leistungsstarken Modelle werden jedoch aufgrund ihres hohen Rechenbedarfs typischerweise auf Cloud-Servern bereitgestellt, was ernsthafte Bedenken hinsichtlich der Datenschutz der Nutzer aufwirft. Um eine sichere und effiziente Generierung auf Endgeräten zu ermöglichen, untersuchen wir in dieser Arbeit steuerbare Diffusionsmodelle, die auf Linear-Attention-Architekturen basieren und eine überlegene Skalierbarkeit und Effizienz selbst auf Edge-Geräten bieten. Allerdings zeigen unsere Experimente, dass bestehende Frameworks für steuerbare Generierung, wie ControlNet und OminiControl, entweder die Flexibilität zur Unterstützung mehrerer heterogener Bedingungstypen vermissen lassen oder auf solchen Linear-Attention-Modellen unter langsamer Konvergenz leiden. Um diese Einschränkungen zu adressieren, schlagen wir ein neuartiges Framework für steuerbare Diffusion vor, das speziell für Linear-Attention-Backbones wie SANA entwickelt wurde. Der Kern unserer Methode liegt in einem einheitlichen, gated Conditioning-Modul, das in einer Dual-Path-Pipeline arbeitet und effektiv multitypische conditionale Eingaben, wie räumlich ausgerichtete und nicht-ausgerichtete Hinweisreize, integriert. Umfangreiche Experimente zu mehreren Aufgaben und Benchmarks belegen, dass unser Ansatz auf Linear-Attention-Modellen basierend state-of-the-art Leistung in der steuerbaren Generierung erreicht und bestehende Methoden in Bezug auf Wiedergabetreue und Steuerbarkeit übertrifft.

English

Recent advances in diffusion-based controllable visual generation have led to remarkable improvements in image quality. However, these powerful models are typically deployed on cloud servers due to their large computational demands, raising serious concerns about user data privacy. To enable secure and efficient on-device generation, we explore in this paper controllable diffusion models built upon linear attention architectures, which offer superior scalability and efficiency, even on edge devices. Yet, our experiments reveal that existing controllable generation frameworks, such as ControlNet and OminiControl, either lack the flexibility to support multiple heterogeneous condition types or suffer from slow convergence on such linear-attention models. To address these limitations, we propose a novel controllable diffusion framework tailored for linear attention backbones like SANA. The core of our method lies in a unified gated conditioning module working in a dual-path pipeline, which effectively integrates multi-type conditional inputs, such as spatially aligned and non-aligned cues. Extensive experiments on multiple tasks and benchmarks demonstrate that our approach achieves state-of-the-art controllable generation performance based on linear-attention models, surpassing existing methods in terms of fidelity and controllability.

Gated Condition Injection ohne Multimodale Aufmerksamkeit: Auf dem Weg zu steuerbaren Linear-Attention-Transformern

Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

Zusammenfassung

Support