Plantillas de Difusión: Un Marco Unificado de Complementos para Difusión Controlable
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
April 27, 2026
Autores: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI
Resumen
Los métodos de difusión controlable han ampliado sustancialmente la utilidad práctica de los modelos de difusión, pero generalmente se desarrollan como sistemas aislados específicos de cada arquitectura base, con pipelines de entrenamiento, formatos de parámetros y hooks de ejecución incompatibles. Esta fragmentación dificulta la reutilización de infraestructura entre tareas, la transferencia de capacidades entre arquitecturas o la composición de múltiples controles dentro de un único pipeline de generación. Presentamos Diffusion Templates, un framework unificado y abierto de tipo plugin que desacopla la inferencia del modelo base de la inyección de capacidades controlables. El framework se organiza en torno a tres componentes: Modelos plantilla que mapean entradas arbitrarias específicas de tarea a una representación intermedia de capacidad, una caché de plantilla que funciona como interfaz estandarizada para la inyección de capacidades, y un pipeline de plantilla que carga, fusiona e inyecta una o más cachés de plantilla en el entorno de ejecución de difusión base. Dado que la interfaz se define a nivel de sistemas en lugar de estar vinculada a una arquitectura de control específica, portadores de capacidad heterogéneos como KV-Cache y LoRA pueden ser soportados bajo la misma abstracción. Basándonos en este diseño, construimos un zoo de modelos diverso que abarca control estructural, ajuste de brillo, ajuste de color, edición de imágenes, super-resolución, mejora de nitidez, alineación estética, referencia de contenido, inpaintin local y control de edad. Estos estudios de caso demuestran que Diffusion Templates puede unificar una amplia gama de tareas de generación controlable mientras preserva la modularidad, componibilidad y extensibilidad práctica a través de arquitecturas de difusión en rápida evolución. Todos los recursos serán de código abierto, incluyendo código, modelos y conjuntos de datos.
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.