Diffusion Templates: Ein einheitliches Plugin-Framework für kontrollierte Diffusion

Zusammenfassung

Steuerbare Diffusionsmethoden haben den praktischen Nutzen von Diffusionsmodellen erheblich erweitert, werden jedoch typischerweise als isolierte, backbone-spezifische Systeme entwickelt, die inkompatible Trainingspipelines, Parameterformate und Laufzeit-Hooks aufweisen. Diese Fragmentierung erschwert die Wiederverwendung von Infrastruktur über Aufgaben hinweg, den Transfer von Fähigkeiten zwischen verschiedenen Backbones oder die Kombination mehrerer Steuerungen innerhalb einer einzelnen Generierungspipeline. Wir stellen Diffusion Templates vor, ein einheitliches und offenes Plugin-Framework, das die Basis-Modell-Inferenz von der Injektion steuerbarer Fähigkeiten entkoppelt. Das Framework ist um drei Komponenten organisiert: Template-Modelle, die beliebige aufgabenspezifische Eingaben in eine intermediäre Fähigkeitsrepräsentation abbilden, einen Template-Cache, der als standardisierte Schnittstelle für die Fähigkeitsinjektion fungiert, und eine Template-Pipeline, die einen oder mehrere Template-Caches lädt, zusammenführt und in die Laufzeitumgebung des Basis-Diffusionsmodells injiziert. Da die Schnittstelle auf Systemebene definiert ist und nicht an eine spezifische Steuerungsarchitektur gebunden wird, können heterogene Fähigkeitsträger wie KV-Cache und LoRA unter derselben Abstraktion unterstützt werden. Aufbauend auf diesem Design erstellen wir eine vielfältige Modell-Zoo, die strukturelle Steuerung, Helligkeitsanpassung, Farbanpassung, Bildbearbeitung, Super-Resolution, Schärfeverbesserung, ästhetische Ausrichtung, Inhaltsreferenz, lokale Inpainting und Alterssteuerung umfasst. Diese Fallstudien zeigen, dass Diffusion Templates eine breite Palette steuerbarer Generierungsaufgaben vereinheitlichen kann, während Modularität, Komponierbarkeit und praktische Erweiterbarkeit über sich schnell entwickelnde Diffusions-Backbones hinweg erhalten bleiben. Alle Ressourcen, einschließlich Code, Modelle und Datensätze, werden quelloffen zur Verfügung gestellt.

English

Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.

Diffusion Templates: Ein einheitliches Plugin-Framework für kontrollierte Diffusion

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Zusammenfassung

Support