Modelli di Diffusione: Un Framework Unificato di Plugin per la Diffusione Controllata
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
April 27, 2026
Autori: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI
Abstract
I metodi di diffusione controllabile hanno notevolmente ampliato l'utilità pratica dei modelli di diffusione, ma sono tipicamente sviluppati come sistemi isolati e specifici per l'architettura di base, con pipeline di addestramento, formati dei parametri e hook di runtime incompatibili. Questa frammentazione rende difficile il riutilizzo dell'infrastruttura tra diversi task, il trasferimento di capacità tra architetture diverse o la composizione di controlli multipli all'interno di una singola pipeline di generazione. Presentiamo Diffusion Templates, un framework unificato e aperto di tipo plugin che disaccoppia l'inferenza del modello base dall'iniezione di capacità controllabili. Il framework è organizzato attorno a tre componenti: Modelli Template che mappano input arbitrari specifici per task a una rappresentazione intermedia delle capacità, una Cache Template che funge da interfaccia standardizzata per l'iniezione delle capacità, e una Pipeline Template che carica, fonde e inietta una o più Cache Template nel runtime di diffusione di base. Poiché l'interfaccia è definita a livello di sistema e non è vincolata a una specifica architettura di controllo, vettori di capacità eterogenei come KV-Cache e LoRA possono essere supportati sotto la stessa astrazione. Sulla base di questo progetto, abbiamo costruito uno zoo di modelli diversificato che comprende controllo strutturale, regolazione della luminosità, regolazione del colore, editing di immagini, super-risoluzione, miglioramento della nitidezza, allineamento estetico, riferimento di contenuto, inpaintng locale e controllo dell'età. Questi casi di studio dimostrano che Diffusion Templates può unificare un'ampia gamma di task di generazione controllabile preservando al contempo modularità, componibilità e estensibilità pratica attraverso architetture di diffusione in rapida evoluzione. Tutte le risorse, inclusi codice, modelli e dataset, saranno rilasciate come open source.
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.