Шаблоны диффузии: унифицированная плагин-архитектура для управляемой диффузии
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
April 27, 2026
Авторы: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI
Аннотация
Методы управляемой диффузии значительно расширили практическую применимость диффузионных моделей, однако обычно они разрабатываются как изолированные системы, привязанные к конкретным базовым архитектурам, с несовместимыми процессами обучения, форматами параметров и runtime-хуками. Эта фрагментация затрудняет повторное использование инфраструктуры между задачами, перенос возможностей между различными архитектурами или композицию нескольких управляющих воздействий в рамках единого конвейера генерации. Мы представляем Diffusion Templates — унифицированную и открытую плагин-архитектуру, которая отделяет базовый вывод модели от инжектирования управляющих возможностей. Фреймворк организован вокруг трёх компонентов: Template-моделей, которые преобразуют произвольные входные данные задачи в промежуточное представление возможностей; Template-кэша, функционирующего как стандартизированный интерфейс для инжектирования возможностей; и Template-конвейера, который загружает, объединяет и инжектирует один или несколько Template-кэшей в runtime базовой диффузионной модели. Поскольку интерфейс определён на системном уровне, а не привязан к конкретной управляющей архитектуре, разнородные носители возможностей, такие как KV-Cache и LoRA, могут поддерживаться в рамках единой абстракции. На основе этой архитектуры мы создали обширный зоопарк моделей, охватывающий структурное управление, регулировку яркости, цветокоррекцию, редактирование изображений, сверхразрешение, повышение резкости, эстетическую адаптацию, контентные ссылки, локальное inpaint-заполнение и управление возрастом. Эти кейс-стади демонстрируют, что Diffusion Templates способны унифицировать широкий спектр задач управляемой генерации, сохраняя модульность, композируемость и практическую расширяемость в условиях быстрой эволюции диффузионных базовых архитектур. Все ресурсы, включая код, модели и наборы данных, будут открыты.
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.