Mise en cache évolutive pour accélérer votre modèle de diffusion prêt à l'emploi
Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model
June 18, 2025
Auteurs: Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam
cs.AI
Résumé
Les modèles de génération d'images basés sur la diffusion excellent dans la production de contenu synthétique de haute qualité, mais souffrent d'une inférence lente et coûteuse en termes de calcul. Les travaux antérieurs ont tenté de remédier à cela en mettant en cache et en réutilisant des caractéristiques au sein de transformeurs de diffusion à travers les étapes d'inférence. Ces méthodes, cependant, reposent souvent sur des heuristiques rigides qui entraînent une accélération limitée ou une mauvaise généralisation à travers les architectures. Nous proposons Evolutionary Caching to Accelerate Diffusion models (ECAD), un algorithme génétique qui apprend des plans de cache efficaces, spécifiques à chaque modèle, formant une frontière de Pareto, en utilisant seulement un petit ensemble de prompts de calibration. ECAD ne nécessite aucune modification des paramètres du réseau ou des images de référence. Il offre des accélérations significatives de l'inférence, permet un contrôle fin du compromis qualité-latence, et s'adapte de manière transparente à différents modèles de diffusion. Notamment, les plans appris par ECAD peuvent se généraliser efficacement à des résolutions et des variantes de modèles non vues lors de la calibration. Nous évaluons ECAD sur PixArt-alpha, PixArt-Sigma et FLUX-1.dev en utilisant plusieurs métriques (FID, CLIP, Image Reward) à travers divers benchmarks (COCO, MJHQ-30k, PartiPrompts), démontrant des améliorations constantes par rapport aux approches précédentes. Sur PixArt-alpha, ECAD identifie un plan qui surpasse la méthode précédente de pointe de 4,47 COCO FID tout en augmentant l'accélération de l'inférence de 2,35x à 2,58x. Nos résultats établissent ECAD comme une approche scalable et généralisable pour accélérer l'inférence de diffusion. Notre site web de projet est disponible à l'adresse https://aniaggarwal.github.io/ecad et notre code est disponible à l'adresse https://github.com/aniaggarwal/ecad.
English
Diffusion-based image generation models excel at producing high-quality
synthetic content, but suffer from slow and computationally expensive
inference. Prior work has attempted to mitigate this by caching and reusing
features within diffusion transformers across inference steps. These methods,
however, often rely on rigid heuristics that result in limited acceleration or
poor generalization across architectures. We propose Evolutionary Caching to
Accelerate Diffusion models (ECAD), a genetic algorithm that learns efficient,
per-model, caching schedules forming a Pareto frontier, using only a small set
of calibration prompts. ECAD requires no modifications to network parameters or
reference images. It offers significant inference speedups, enables
fine-grained control over the quality-latency trade-off, and adapts seamlessly
to different diffusion models. Notably, ECAD's learned schedules can generalize
effectively to resolutions and model variants not seen during calibration. We
evaluate ECAD on PixArt-alpha, PixArt-Sigma, and FLUX-1.dev using multiple
metrics (FID, CLIP, Image Reward) across diverse benchmarks (COCO, MJHQ-30k,
PartiPrompts), demonstrating consistent improvements over previous approaches.
On PixArt-alpha, ECAD identifies a schedule that outperforms the previous
state-of-the-art method by 4.47 COCO FID while increasing inference speedup
from 2.35x to 2.58x. Our results establish ECAD as a scalable and generalizable
approach for accelerating diffusion inference. Our project website is available
at https://aniaggarwal.github.io/ecad and our code is available at
https://github.com/aniaggarwal/ecad.