ChatPaper.aiChatPaper

확산 템플릿: 제어 가능한 확산 모델을 위한 통합 플러그인 프레임워크

Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

April 27, 2026
저자: Zhongjie Duan, Hong Zhang, Yingda Chen
cs.AI

초록

제어 가능한 확산 방법은 확산 모델의 실용성을 크게 확장시켰지만, 일반적으로 고립된 백본 특화 시스템으로 개발되어 호환되지 않는 학습 파이프라인, 매개변수 형식 및 런타임 훅을 사용합니다. 이러한 분열은 인프라를 작업 간에 재사용하거나, 백본 간에 기능을 전이하거나, 단일 생성 파이프라인 내에서 여러 제어를 구성하는 것을 어렵게 만듭니다. 본 논문에서는 기본 모델 추론과 제어 기능 주입을 분리하는 통합된 오픈 소스 플러그인 프레임워크인 Diffusion Templates를 제시합니다. 이 프레임워크는 세 가지 구성 요소를 중심으로 구성됩니다: 임의의 작업별 입력을 중간 기능 표현에 매핑하는 Template 모델, 기능 주입을 위한 표준화된 인터페이스 역할을 하는 Template 캐시, 그리고 하나 이상의 Template 캐시를 기본 확산 런타임에 로드, 병합 및 주입하는 Template 파이프라인입니다. 인터페이스가 특정 제어 아키텍처에 얽매이지 않고 시스템 수준에서 정의되기 때문에 KV-Cache와 LoRA와 같은 이종 기능 운반체들이 동일한 추상화 아래에서 지원될 수 있습니다. 이 설계를 바탕으로 구조 제어, 밝기 조정, 색상 조정, 이미지 편집, 초해상도, 선명도 향상, 미적 정렬, 콘텐츠 참조, 지역 인페인팅 및 연령 제어에 이르는 다양한 모델 zoo를 구축합니다. 이러한 사례 연구는 Diffusion Templates가 빠르게 진화하는 확산 백본 전반에 걸쳐 모듈성, 구성 가능성 및 실용적인 확장성을 유지하면서 광범위한 제어 가능 생성 작업을 통합할 수 있음을 보여줍니다. 코드, 모델 및 데이터셋을 포함한 모든 자원은 오픈 소스로 공개될 예정입니다.
English
Controllable diffusion methods have substantially expanded the practical utility of diffusion models, but they are typically developed as isolated, backbone-specific systems with incompatible training pipelines, parameter formats, and runtime hooks. This fragmentation makes it difficult to reuse infrastructure across tasks, transfer capabilities across backbones, or compose multiple controls within a single generation pipeline. We present Diffusion Templates, a unified and open plugin framework that decouples base-model inference from controllable capability injection. The framework is organized around three components: Template models that map arbitrary task-specific inputs to an intermediate capability representation, a Template cache that functions as a standardized interface for capability injection, and a Template pipeline that loads, merges, and injects one or more Template caches into the base diffusion runtime. Because the interface is defined at the systems level rather than tied to a specific control architecture, heterogeneous capability carriers such as KV-Cache and LoRA can be supported under the same abstraction. Based on this design, we build a diverse model zoo spanning structural control, brightness adjustment, color adjustment, image editing, super-resolution, sharpness enhancement, aesthetic alignment, content reference, local inpainting, and age control. These case studies show that Diffusion Templates can unify a broad range of controllable generation tasks while preserving modularity, composability, and practical extensibility across rapidly evolving diffusion backbones. All resources will be open sourced, including code, models, and datasets.
PDF62May 1, 2026