오프더쉘프 확산 모델 가속화를 위한 진화적 캐싱
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model
June 18, 2025
저자: Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam
cs.AI
초록
확산 기반 이미지 생성 모델은 고품질의 합성 콘텐츠를 생성하는 데 뛰어나지만, 느리고 계산 비용이 많이 드는 추론 과정이 문제로 지적되어 왔다. 기존 연구에서는 확산 트랜스포머 내에서 추론 단계 간 특징을 캐싱하고 재사용함으로써 이를 완화하려는 시도가 있었다. 그러나 이러한 방법들은 경직된 휴리스틱에 의존하여 제한된 가속 효과를 보이거나 다양한 아키텍처 간 일반화가 잘 이루어지지 않는 한계가 있었다. 본 연구에서는 확산 모델 가속을 위한 진화적 캐싱(Evolutionary Caching to Accelerate Diffusion models, ECAD)을 제안한다. ECAD는 소량의 캘리브레이션 프롬프트만을 사용하여 파레토 프론티어를 형성하는 모델별 효율적인 캐싱 스케줄을 학습하는 유전 알고리즘이다. ECAD는 네트워크 매개변수나 참조 이미지에 대한 수정을 필요로 하지 않으며, 상당한 추론 속도 향상을 제공하고 품질-지연 시간 트레이드오프에 대한 세밀한 제어를 가능하게 하며, 다양한 확산 모델에 원활하게 적응한다. 특히, ECAD가 학습한 스케줄은 캘리브레이션 중에 보지 못한 해상도와 모델 변형에도 효과적으로 일반화될 수 있다. PixArt-alpha, PixArt-Sigma, FLUX-1.dev 모델을 대상으로 COCO, MJHQ-30k, PartiPrompts 등 다양한 벤치마크에서 FID, CLIP, Image Reward 등 여러 지표를 사용하여 ECAD를 평가한 결과, 기존 접근법 대비 일관된 개선을 확인하였다. PixArt-alpha에서 ECAD는 이전 최신 방법 대비 4.47 COCO FID를 개선하면서 추론 속도 향상을 2.35배에서 2.58배로 높인 스케줄을 도출하였다. 이러한 결과는 ECAD가 확산 추론 가속을 위한 확장 가능하고 일반화 가능한 접근법임을 입증한다. 프로젝트 웹사이트는 https://aniaggarwal.github.io/ecad에서 확인할 수 있으며, 코드는 https://github.com/aniaggarwal/ecad에서 제공된다.
English
Diffusion-based image generation models excel at producing high-quality
synthetic content, but suffer from slow and computationally expensive
inference. Prior work has attempted to mitigate this by caching and reusing
features within diffusion transformers across inference steps. These methods,
however, often rely on rigid heuristics that result in limited acceleration or
poor generalization across architectures. We propose Evolutionary Caching to
Accelerate Diffusion models (ECAD), a genetic algorithm that learns efficient,
per-model, caching schedules forming a Pareto frontier, using only a small set
of calibration prompts. ECAD requires no modifications to network parameters or
reference images. It offers significant inference speedups, enables
fine-grained control over the quality-latency trade-off, and adapts seamlessly
to different diffusion models. Notably, ECAD's learned schedules can generalize
effectively to resolutions and model variants not seen during calibration. We
evaluate ECAD on PixArt-alpha, PixArt-Sigma, and FLUX-1.dev using multiple
metrics (FID, CLIP, Image Reward) across diverse benchmarks (COCO, MJHQ-30k,
PartiPrompts), demonstrating consistent improvements over previous approaches.
On PixArt-alpha, ECAD identifies a schedule that outperforms the previous
state-of-the-art method by 4.47 COCO FID while increasing inference speedup
from 2.35x to 2.58x. Our results establish ECAD as a scalable and generalizable
approach for accelerating diffusion inference. Our project website is available
at https://aniaggarwal.github.io/ecad and our code is available at
https://github.com/aniaggarwal/ecad.