Modelos de Difusão: Uma Estrutura de Plugin Unificada para Controle de Difusão

Resumo

Os métodos de difusão controlável expandiram substancialmente a utilidade prática dos modelos de difusão, mas são tipicamente desenvolvidos como sistemas isolados e específicos para cada arquitetura-base, com pipelines de treinamento, formatos de parâmetros e hooks de tempo de execução incompatíveis. Essa fragmentação dificulta a reutilização de infraestrutura entre tarefas, a transferência de capacidades entre arquiteturas-base ou a composição de múltiplos controles dentro de um único pipeline de geração. Apresentamos o Diffusion Templates, uma estrutura de plugin unificada e aberta que desacopla a inferência do modelo-base da injeção de capacidades controláveis. A estrutura é organizada em torno de três componentes: Modelos Template que mapeiam entradas arbitrárias específicas da tarefa para uma representação intermediária de capacidade, um Cache Template que funciona como uma interface padronizada para injeção de capacidade, e um Pipeline Template que carrega, combina e injeta um ou mais Caches Template no tempo de execução do modelo de difusão base. Como a interface é definida no nível de sistemas, e não vinculada a uma arquitetura de controle específica, portadores de capacidade heterogêneos, como KV-Cache e LoRA, podem ser suportados sob a mesma abstração. Com base neste design, construímos um zoo de modelos diversificado abrangendo controle estrutural, ajuste de brilho, ajuste de cor, edição de imagem, super-resolução, aprimoramento de nitidez, alinhamento estético, referência de conteúdo, preenchimento local de áreas (inpainting) e controle de idade. Esses estudos de caso mostram que o Diffusion Templates pode unificar uma ampla gama de tarefas de geração controlável, preservando a modularidade, a composicionalidade e a extensibilidade prática em meio às arquiteturas-base de difusão em rápida evolução. Todos os recursos serão disponibilizados como código aberto, incluindo código, modelos e conjuntos de dados.

English

Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.

Modelos de Difusão: Uma Estrutura de Plugin Unificada para Controle de Difusão

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Resumo

Support