Увеличение разрешения важного: регионально-адаптивная выборка латентных переменных для ускорения диффузионных трансформеров
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers
July 11, 2025
Авторы: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI
Аннотация
Диффузионные трансформеры появились как альтернатива диффузионным моделям на основе U-net для генерации изображений и видео высокой точности, предлагая превосходную масштабируемость. Однако их высокая вычислительная сложность остается основным препятствием для практического применения. Существующие методы ускорения в основном используют временное измерение, например, повторное использование кэшированных признаков на различных шагах диффузии. В данной работе мы предлагаем Region-Adaptive Latent Upsampling (RALU), фреймворк, не требующий обучения, который ускоряет вывод данных по пространственному измерению. RALU выполняет выборку с различным разрешением в три этапа: 1) низкоразрешающая денойзинговая латентная диффузия для эффективного захвата глобальной семантической структуры, 2) регионально-адаптивное повышение разрешения на участках, склонных к артефактам при полном разрешении, и 3) полное повышение разрешения латентного пространства для уточнения деталей. Для стабилизации генерации при переходе между разрешениями мы используем перепланировку шумовых временных шагов для адаптации уровня шума к различным разрешениям. Наш метод значительно сокращает вычислительные затраты, сохраняя качество изображения, достигая ускорения до 7.0 раз на FLUX и 3.0 раз на Stable Diffusion 3 с минимальной деградацией. Кроме того, RALU дополняет существующие временные методы ускорения, такие как методы кэширования, и может быть легко интегрирован для дальнейшего снижения задержки вывода без ущерба для качества генерации.
English
Diffusion transformers have emerged as an alternative to U-net-based
diffusion models for high-fidelity image and video generation, offering
superior scalability. However, their heavy computation remains a major obstacle
to real-world deployment. Existing acceleration methods primarily exploit the
temporal dimension such as reusing cached features across diffusion timesteps.
Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free
framework that accelerates inference along spatial dimension. RALU performs
mixed-resolution sampling across three stages: 1) low-resolution denoising
latent diffusion to efficiently capture global semantic structure, 2)
region-adaptive upsampling on specific regions prone to artifacts at
full-resolution, and 3) all latent upsampling at full-resolution for detail
refinement. To stabilize generations across resolution transitions, we leverage
noise-timestep rescheduling to adapt the noise level across varying
resolutions. Our method significantly reduces computation while preserving
image quality by achieving up to 7.0times speed-up on FLUX and 3.0times
on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is
complementary to existing temporal accelerations such as caching methods, thus
can be seamlessly integrated to further reduce inference latency without
compromising generation quality.