EasyControl: 拡散トランスフォーマーにおける効率的で柔軟な制御の実現
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
March 10, 2025
著者: Yuxuan Zhang, Yirui Yuan, Yiren Song, Haofan Wang, Jiaming Liu
cs.AI
要旨
Unetベースの拡散モデルにおける最近の進展、例えばControlNetやIP-Adapterは、効果的な空間的および主題的制御メカニズムを導入しました。しかし、DiT(Diffusion Transformer)アーキテクチャは、効率的で柔軟な制御において依然として課題を抱えています。この問題に対処するため、我々はEasyControlを提案します。これは、条件誘導型拡散トランスフォーマーを高効率かつ柔軟に統合する新しいフレームワークです。我々のフレームワークは、3つの主要な革新に基づいて構築されています。第一に、軽量なCondition Injection LoRAモジュールを導入します。このモジュールは、条件信号を独立して処理し、プラグアンドプレイソリューションとして機能します。ベースモデルの重みを変更せずに済むため、カスタマイズされたモデルとの互換性を確保し、多様な条件の柔軟な注入を可能にします。特に、このモジュールは、単一条件データでのみトレーニングされた場合でも、調和のとれた堅牢なゼロショット多条件一般化をサポートします。第二に、Position-Aware Training Paradigmを提案します。このアプローチは、入力条件を固定解像度に標準化し、任意のアスペクト比と柔軟な解像度での画像生成を可能にします。同時に、計算効率を最適化し、フレームワークを実世界のアプリケーションにより実用的にします。第三に、条件生成タスクに適応したKV Cache技術と組み合わせたCausal Attention Mechanismを開発します。この革新により、画像合成のレイテンシが大幅に削減され、フレームワーク全体の効率が向上します。広範な実験を通じて、EasyControlがさまざまなアプリケーションシナリオで卓越した性能を発揮することを実証します。これらの革新により、我々のフレームワークは非常に効率的で柔軟であり、幅広いタスクに適しています。
English
Recent advancements in Unet-based diffusion models, such as ControlNet and
IP-Adapter, have introduced effective spatial and subject control mechanisms.
However, the DiT (Diffusion Transformer) architecture still struggles with
efficient and flexible control. To tackle this issue, we propose EasyControl, a
novel framework designed to unify condition-guided diffusion transformers with
high efficiency and flexibility. Our framework is built on three key
innovations. First, we introduce a lightweight Condition Injection LoRA Module.
This module processes conditional signals in isolation, acting as a
plug-and-play solution. It avoids modifying the base model weights, ensuring
compatibility with customized models and enabling the flexible injection of
diverse conditions. Notably, this module also supports harmonious and robust
zero-shot multi-condition generalization, even when trained only on
single-condition data. Second, we propose a Position-Aware Training Paradigm.
This approach standardizes input conditions to fixed resolutions, allowing the
generation of images with arbitrary aspect ratios and flexible resolutions. At
the same time, it optimizes computational efficiency, making the framework more
practical for real-world applications. Third, we develop a Causal Attention
Mechanism combined with the KV Cache technique, adapted for conditional
generation tasks. This innovation significantly reduces the latency of image
synthesis, improving the overall efficiency of the framework. Through extensive
experiments, we demonstrate that EasyControl achieves exceptional performance
across various application scenarios. These innovations collectively make our
framework highly efficient, flexible, and suitable for a wide range of tasks.Summary
AI-Generated Summary