Эволюционное кэширование для ускорения работы готовых моделей диффузии

Аннотация

Модели генерации изображений на основе диффузии демонстрируют превосходное качество синтетического контента, однако страдают от медленного и ресурсоемкого процесса вывода. Предыдущие работы пытались решить эту проблему путем кэширования и повторного использования признаков в трансформерах диффузии на различных шагах вывода. Однако эти методы часто полагаются на жесткие эвристики, что приводит к ограниченному ускорению или плохой обобщаемости на различные архитектуры. Мы предлагаем Evolutionary Caching to Accelerate Diffusion models (ECAD) — генетический алгоритм, который обучается эффективным, специфичным для каждой модели, расписаниям кэширования, формирующим Парето-границу, используя лишь небольшой набор калибровочных запросов. ECAD не требует изменений параметров сети или эталонных изображений. Он обеспечивает значительное ускорение вывода, позволяет тонко управлять компромиссом между качеством и задержкой и легко адаптируется к различным моделям диффузии. Примечательно, что обученные расписания ECAD эффективно обобщаются на разрешения и варианты моделей, не встречавшиеся во время калибровки. Мы оцениваем ECAD на моделях PixArt-alpha, PixArt-Sigma и FLUX-1.dev, используя несколько метрик (FID, CLIP, Image Reward) на различных бенчмарках (COCO, MJHQ-30k, PartiPrompts), демонстрируя стабильные улучшения по сравнению с предыдущими подходами. На PixArt-alpha ECAD находит расписание, которое превосходит предыдущий метод с наилучшими результатами на 4.47 COCO FID, увеличивая ускорение вывода с 2.35x до 2.58x. Наши результаты подтверждают, что ECAD является масштабируемым и обобщаемым подходом для ускорения вывода в моделях диффузии. Наш проект доступен на сайте https://aniaggarwal.github.io/ecad, а код — на https://github.com/aniaggarwal/ecad.

English

Diffusion-based image generation models excel at producing high-quality synthetic content, but suffer from slow and computationally expensive inference. Prior work has attempted to mitigate this by caching and reusing features within diffusion transformers across inference steps. These methods, however, often rely on rigid heuristics that result in limited acceleration or poor generalization across architectures. We propose Evolutionary Caching to Accelerate Diffusion models (ECAD), a genetic algorithm that learns efficient, per-model, caching schedules forming a Pareto frontier, using only a small set of calibration prompts. ECAD requires no modifications to network parameters or reference images. It offers significant inference speedups, enables fine-grained control over the quality-latency trade-off, and adapts seamlessly to different diffusion models. Notably, ECAD's learned schedules can generalize effectively to resolutions and model variants not seen during calibration. We evaluate ECAD on PixArt-alpha, PixArt-Sigma, and FLUX-1.dev using multiple metrics (FID, CLIP, Image Reward) across diverse benchmarks (COCO, MJHQ-30k, PartiPrompts), demonstrating consistent improvements over previous approaches. On PixArt-alpha, ECAD identifies a schedule that outperforms the previous state-of-the-art method by 4.47 COCO FID while increasing inference speedup from 2.35x to 2.58x. Our results establish ECAD as a scalable and generalizable approach for accelerating diffusion inference. Our project website is available at https://aniaggarwal.github.io/ecad and our code is available at https://github.com/aniaggarwal/ecad.

Эволюционное кэширование для ускорения работы готовых моделей диффузии

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Аннотация

Support