Modèles de diffusion : un cadre unifié d'extensions pour le contrôle de la diffusion

Résumé

Les méthodes de diffusion contrôlable ont considérablement élargi l'utilité pratique des modèles de diffusion, mais elles sont généralement développées comme des systèmes isolés, spécifiques à une architecture de base, avec des pipelines d'entraînement, des formats de paramètres et des hooks d'exécution incompatibles. Cette fragmentation rend difficile la réutilisation de l'infrastructure entre les tâches, le transfert de capacités entre les architectures ou la composition de multiples contrôles dans un seul pipeline de génération. Nous présentons Diffusion Templates, un framework de plugins unifié et ouvert qui découple l'inférence du modèle de base de l'injection de capacités contrôlables. Le framework est organisé autour de trois composants : les modèles Template qui transforment des entrées arbitraires spécifiques à une tâche en une représentation intermédiaire des capacités, un cache Template qui fonctionne comme une interface standardisée pour l'injection de capacités, et un pipeline Template qui charge, fusionne et injecte un ou plusieurs caches Template dans le runtime de diffusion de base. Parce que l'interface est définie au niveau du système plutôt que liée à une architecture de contrôle spécifique, des porteurs de capacités hétérogènes tels que KV-Cache et LoRA peuvent être pris en charge sous la même abstraction. Sur la base de cette conception, nous construisons un zoo de modèles diversifié couvrant le contrôle structurel, l'ajustement de la luminosité, l'ajustement des couleurs, l'édition d'image, la super-résolution, l'amélioration de la netteté, l'alignement esthétique, la référence de contenu, l'inpainting local et le contrôle de l'âge. Ces études de cas montrent que Diffusion Templates peut unifier un large éventail de tâches de génération contrôlable tout en préservant la modularité, la composabilité et l'extensibilité pratique à travers les architectures de diffusion en évolution rapide. Toutes les ressources seront publiées en open source, y compris le code, les modèles et les jeux de données.

English

Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.

Modèles de diffusion : un cadre unifié d'extensions pour le contrôle de la diffusion

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Résumé

Support