拡散テンプレート:制御可能な拡散モデルのための統合プラグインフレームワーク
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
April 27, 2026
著者: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI
要旨
制御可能な拡散手法は拡散モデルの実用性を大幅に拡大してきたが、これらは通常、互換性のない訓練パイプライン、パラメータ形式、ランタイムフックを有する孤立したバックボーン特化型システムとして開発されている。この断片化により、インフラのタスク間での再利用、バックボーン間での機能移転、単一の生成パイプライン内での複数制御の組み合わせが困難になっている。本論文ではDiffusion Templatesを提案する。これは基本モデルの推論と制御機能の注入を分離した、統一されたオープンなプラグインフレームワークである。本フレームワークは3つの構成要素で組織化される:任意のタスク固有入力を中間的な機能表現に写像するテンプレートモデル、機能注入の標準化インターフェースとして機能するテンプレートキャッシュ、および1つ以上のテンプレートキャッシュを基本拡散ランタイムに読み込み・統合・注入するテンプレートパイプライン。インターフェースが特定の制御アーキテクチャに依存せずシステムレベルで定義されるため、KVキャッシュやLoRAといった異種混合の機能キャリアを同一の抽象化の下でサポートできる。この設計に基づき、構造制御、輝度調整、色調調整、画像編集、超解像、鮮鋭度強化、審美性調整、コンテンツ参照、局所的なインペインティング、年齢制御など多様なモデル群を構築した。これらの事例研究は、Diffusion Templatesが急速に進化する拡散バックボーン間でのモジュール性、合成可能性、実用的な拡張性を維持しながら、広範な制御可能生成タスクを統合できることを示している。コード、モデル、データセットを含む全てのリソースをオープンソースとして公開する予定である。
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.