ChatPaper.aiChatPaper

効率的なテキスト誘導型畳み込みアダプターを用いた拡散モデル

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

February 16, 2026
著者: Aryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma
cs.AI

要旨

本論文では、拡散ベースの構造保存条件付き生成(SPCG)フレームワーク向けに、テキスト誘導型の効率的なアダプタであるNexus Adaptersを提案する。近年、構造保存手法は、プロンプト条件付けにベースモデルを、スケッチや深度マップなどの構造入力を処理するアダプタを使用することで、条件付き画像生成において有望な結果を達成している。しかし、これらの手法は非効率的であり、アダプタがベースアーキテクチャと同等のパラメータ数を必要とする場合もある。拡散モデル自体が高コストであるためモデルの再学習が常に可能とは限らず、パラメータ数が倍増するのは極めて非効率的である。さらに、既存手法のアダプタは入力プロンプトを認識しないため、構造入力に対してのみ最適化され、入力プロンプトには最適化されていない。これらの課題を克服するため、我々はプロンプトと構造入力の両方に誘導される二つの効率的なアダプタ、Nexus PrimeとNexus Slimを提案する。各Nexus Blockは、豊富なマルチモーダル条件付けを可能にするクロスアテンション機構を組み込んでいる。これにより、提案するアダプタは構造を保ちながら、入力プロンプトをより良く理解することができる。提案モデルに関する広範な実験を行い、Nexus Primeアダプタが、ベースラインであるT2I-Adapterと比較して僅か8Mの追加パラメータで性能を大幅に向上させることを実証した。さらに、T2I-Adapterよりも18M少ないパラメータを持つ軽量版Nexus Slimアダプタも提案し、こちらもState-of-the-Artの結果を達成した。コード: https://github.com/arya-domain/Nexus-Adapters
English
We introduce the Nexus Adapters, novel text-guided efficient adapters to the diffusion-based framework for the Structure Preserving Conditional Generation (SPCG). Recently, structure-preserving methods have achieved promising results in conditional image generation by using a base model for prompt conditioning and an adapter for structure input, such as sketches or depth maps. These approaches are highly inefficient and sometimes require equal parameters in the adapter compared to the base architecture. It is not always possible to train the model since the diffusion model is itself costly, and doubling the parameter is highly inefficient. In these approaches, the adapter is not aware of the input prompt; therefore, it is optimal only for the structural input but not for the input prompt. To overcome the above challenges, we proposed two efficient adapters, Nexus Prime and Slim, which are guided by prompts and structural inputs. Each Nexus Block incorporates cross-attention mechanisms to enable rich multimodal conditioning. Therefore, the proposed adapter has a better understanding of the input prompt while preserving the structure. We conducted extensive experiments on the proposed models and demonstrated that the Nexus Prime adapter significantly enhances performance, requiring only 8M additional parameters compared to the baseline, T2I-Adapter. Furthermore, we also introduced a lightweight Nexus Slim adapter with 18M fewer parameters than the T2I-Adapter, which still achieved state-of-the-art results. Code: https://github.com/arya-domain/Nexus-Adapters
PDF72March 28, 2026