확산 템플릿: 제어 가능한 확산 모델을 위한 통합 플러그인 프레임워크
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion
April 27, 2026
저자: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI
초록
제어 가능한 확산 방법은 확산 모델의 실용성을 크게 확장시켰지만, 일반적으로 고립된 백본 특화 시스템으로 개발되어 호환되지 않는 학습 파이프라인, 매개변수 형식 및 런타임 훅을 사용합니다. 이러한 분열은 인프라를 작업 간에 재사용하거나, 백본 간에 기능을 전이하거나, 단일 생성 파이프라인 내에서 여러 제어를 구성하는 것을 어렵게 만듭니다. 본 논문에서는 기본 모델 추론과 제어 기능 주입을 분리하는 통합된 오픈 소스 플러그인 프레임워크인 Diffusion Templates를 제시합니다. 이 프레임워크는 세 가지 구성 요소를 중심으로 구성됩니다: 임의의 작업별 입력을 중간 기능 표현에 매핑하는 Template 모델, 기능 주입을 위한 표준화된 인터페이스 역할을 하는 Template 캐시, 그리고 하나 이상의 Template 캐시를 기본 확산 런타임에 로드, 병합 및 주입하는 Template 파이프라인입니다. 인터페이스가 특정 제어 아키텍처에 얽매이지 않고 시스템 수준에서 정의되기 때문에 KV-Cache와 LoRA와 같은 이종 기능 운반체들이 동일한 추상화 아래에서 지원될 수 있습니다. 이 설계를 바탕으로 구조 제어, 밝기 조정, 색상 조정, 이미지 편집, 초해상도, 선명도 향상, 미적 정렬, 콘텐츠 참조, 지역 인페인팅 및 연령 제어에 이르는 다양한 모델 zoo를 구축합니다. 이러한 사례 연구는 Diffusion Templates가 빠르게 진화하는 확산 백본 전반에 걸쳐 모듈성, 구성 가능성 및 실용적인 확장성을 유지하면서 광범위한 제어 가능 생성 작업을 통합할 수 있음을 보여줍니다. 코드, 모델 및 데이터셋을 포함한 모든 자원은 오픈 소스로 공개될 예정입니다.
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.