Шаблоны диффузии: унифицированная плагин-архитектура для управляемой диффузии

Аннотация

Методы управляемой диффузии значительно расширили практическую применимость диффузионных моделей, однако обычно они разрабатываются как изолированные системы, привязанные к конкретным базовым архитектурам, с несовместимыми процессами обучения, форматами параметров и runtime-хуками. Эта фрагментация затрудняет повторное использование инфраструктуры между задачами, перенос возможностей между различными архитектурами или композицию нескольких управляющих воздействий в рамках единого конвейера генерации. Мы представляем Diffusion Templates — унифицированную и открытую плагин-архитектуру, которая отделяет базовый вывод модели от инжектирования управляющих возможностей. Фреймворк организован вокруг трёх компонентов: Template-моделей, которые преобразуют произвольные входные данные задачи в промежуточное представление возможностей; Template-кэша, функционирующего как стандартизированный интерфейс для инжектирования возможностей; и Template-конвейера, который загружает, объединяет и инжектирует один или несколько Template-кэшей в runtime базовой диффузионной модели. Поскольку интерфейс определён на системном уровне, а не привязан к конкретной управляющей архитектуре, разнородные носители возможностей, такие как KV-Cache и LoRA, могут поддерживаться в рамках единой абстракции. На основе этой архитектуры мы создали обширный зоопарк моделей, охватывающий структурное управление, регулировку яркости, цветокоррекцию, редактирование изображений, сверхразрешение, повышение резкости, эстетическую адаптацию, контентные ссылки, локальное inpaint-заполнение и управление возрастом. Эти кейс-стади демонстрируют, что Diffusion Templates способны унифицировать широкий спектр задач управляемой генерации, сохраняя модульность, композируемость и практическую расширяемость в условиях быстрой эволюции диффузионных базовых архитектур. Все ресурсы, включая код, модели и наборы данных, будут открыты.

English

Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.

Шаблоны диффузии: унифицированная плагин-архитектура для управляемой диффузии

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Аннотация

Support