Injeção Condicional Controlada sem Atenção Multimodal: Rumo a Transformadores de Atenção Linear Controláveis

Resumo

Os recentes avanços na geração visual controlável baseada em difusão levaram a melhorias notáveis na qualidade da imagem. No entanto, estes modelos poderosos são normalmente implantados em servidores na nuvem devido às suas grandes exigências computacionais, levantando sérias preocupações sobre a privacidade dos dados do utilizador. Para permitir uma geração segura e eficiente no dispositivo, exploramos neste artigo modelos de difusão controláveis construídos sobre arquiteturas de atenção linear, que oferecem escalabilidade e eficiência superiores, mesmo em dispositivos de ponta. Contudo, as nossas experiências revelam que as estruturas de geração controlável existentes, como ControlNet e OminiControl, ou carecem da flexibilidade para suportar múltiplos tipos de condições heterogéneas ou sofrem de convergência lenta em tais modelos de atenção linear. Para superar estas limitações, propomos uma nova estrutura de difusão controlável adaptada para *backbones* de atenção linear, como o SANA. O cerne do nosso método reside num módulo de condicionamento unificado com porta, que opera num *pipeline* de duplo caminho, integrando eficazmente entradas condicionais de múltiplos tipos, como pistas espacialmente alinhadas e não alinhadas. Experiências extensas em múltiplas tarefas e *benchmarks* demonstram que a nossa abordagem atinge um estado da arte no desempenho de geração controlável baseada em modelos de atenção linear, superando os métodos existentes em termos de fidelidade e controlabilidade.

English

Recent advances in diffusion-based controllable visual generation have led to remarkable improvements in image quality. However, these powerful models are typically deployed on cloud servers due to their large computational demands, raising serious concerns about user data privacy. To enable secure and efficient on-device generation, we explore in this paper controllable diffusion models built upon linear attention architectures, which offer superior scalability and efficiency, even on edge devices. Yet, our experiments reveal that existing controllable generation frameworks, such as ControlNet and OminiControl, either lack the flexibility to support multiple heterogeneous condition types or suffer from slow convergence on such linear-attention models. To address these limitations, we propose a novel controllable diffusion framework tailored for linear attention backbones like SANA. The core of our method lies in a unified gated conditioning module working in a dual-path pipeline, which effectively integrates multi-type conditional inputs, such as spatially aligned and non-aligned cues. Extensive experiments on multiple tasks and benchmarks demonstrate that our approach achieves state-of-the-art controllable generation performance based on linear-attention models, surpassing existing methods in terms of fidelity and controllability.