다중 모드 어텐션 없이 게이트 조건 주입: 제어 가능한 선형 어텐션 트랜스포머를 향하여
Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers
March 29, 2026
저자: Yuhe Liu, Zhenxiong Tan, Yujia Hu, Songhua Liu, Xinchao Wang
cs.AI
초록
확산 모델 기반 제어 가능 시각 생성의 최근 발전으로 이미지 품질이 비약적으로 향상되었습니다. 그러나 이러한 강력한 모델들은 일반적으로 높은 계산량 요구로 인해 클라우드 서버에 배포되어 사용자 데이터 프라이버시에 대한 심각한 우려를 제기하고 있습니다. 안전하고 효율적인 온디바이스 생성을 가능하게 하기 위해, 본 논문에서는 에지 디바이스에서도 우수한 확장성과 효율성을 제공하는 선형 어텐션 아키텍처 기반의 제어 가능 확산 모델을 탐구합니다. 그러나 우리의 실험 결과, ControlNet 및 OminiControl과 같은 기존 제어 생성 프레임워크들은 여러 이질적인 조건 유형을 지원할 수 있는 유연성이 부족하거나, 이러한 선형 어텐션 모델에서 수렴 속도가 느린 문제점을 가지고 있음을 확인했습니다. 이러한 한계를 해결하기 위해, 우리는 SANA와 같은 선형 어텐션 백본에 맞춰진 새로운 제어 가능 확산 프레임워크를 제안합니다. 우리 방법의 핵심은 공간적으로 정렬된 조건과 비정렬된 단서와 같은 다양한 유형의 조건 입력을 효과적으로 통합하는 이중 경로 파이프라인에서 작동하는 통합 게이트 조건 지정 모듈에 있습니다. 여러 작업과 벤치마크에 대한 광범위한 실험을 통해 우리의 접근 방식이 선형 어텐션 모델 기반으로 최첨단 제어 생성 성능을 달성하며, 정확도와 제어 가능성 측면에서 기존 방법들을 능가함을 입증했습니다.
English
Recent advances in diffusion-based controllable visual generation have led to remarkable improvements in image quality. However, these powerful models are typically deployed on cloud servers due to their large computational demands, raising serious concerns about user data privacy. To enable secure and efficient on-device generation, we explore in this paper controllable diffusion models built upon linear attention architectures, which offer superior scalability and efficiency, even on edge devices. Yet, our experiments reveal that existing controllable generation frameworks, such as ControlNet and OminiControl, either lack the flexibility to support multiple heterogeneous condition types or suffer from slow convergence on such linear-attention models. To address these limitations, we propose a novel controllable diffusion framework tailored for linear attention backbones like SANA. The core of our method lies in a unified gated conditioning module working in a dual-path pipeline, which effectively integrates multi-type conditional inputs, such as spatially aligned and non-aligned cues. Extensive experiments on multiple tasks and benchmarks demonstrate that our approach achieves state-of-the-art controllable generation performance based on linear-attention models, surpassing existing methods in terms of fidelity and controllability.