Modelos de Difusão: Uma Estrutura de Plugin Unificada para Controle de Difusão
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
April 27, 2026
Autores: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI
Resumo
Os métodos de difusão controlável expandiram substancialmente a utilidade prática dos modelos de difusão, mas são tipicamente desenvolvidos como sistemas isolados e específicos para cada arquitetura-base, com pipelines de treinamento, formatos de parâmetros e hooks de tempo de execução incompatíveis. Essa fragmentação dificulta a reutilização de infraestrutura entre tarefas, a transferência de capacidades entre arquiteturas-base ou a composição de múltiplos controles dentro de um único pipeline de geração. Apresentamos o Diffusion Templates, uma estrutura de plugin unificada e aberta que desacopla a inferência do modelo-base da injeção de capacidades controláveis. A estrutura é organizada em torno de três componentes: Modelos Template que mapeiam entradas arbitrárias específicas da tarefa para uma representação intermediária de capacidade, um Cache Template que funciona como uma interface padronizada para injeção de capacidade, e um Pipeline Template que carrega, combina e injeta um ou mais Caches Template no tempo de execução do modelo de difusão base. Como a interface é definida no nível de sistemas, e não vinculada a uma arquitetura de controle específica, portadores de capacidade heterogêneos, como KV-Cache e LoRA, podem ser suportados sob a mesma abstração. Com base neste design, construímos um zoo de modelos diversificado abrangendo controle estrutural, ajuste de brilho, ajuste de cor, edição de imagem, super-resolução, aprimoramento de nitidez, alinhamento estético, referência de conteúdo, preenchimento local de áreas (inpainting) e controle de idade. Esses estudos de caso mostram que o Diffusion Templates pode unificar uma ampla gama de tarefas de geração controlável, preservando a modularidade, a composicionalidade e a extensibilidade prática em meio às arquiteturas-base de difusão em rápida evolução. Todos os recursos serão disponibilizados como código aberto, incluindo código, modelos e conjuntos de dados.
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.