ChatPaper.aiChatPaper

Увеличение разрешения важного: регионально-адаптивная выборка латентных переменных для ускорения диффузионных трансформеров

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

July 11, 2025
Авторы: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI

Аннотация

Диффузионные трансформеры появились как альтернатива диффузионным моделям на основе U-net для генерации изображений и видео высокой точности, предлагая превосходную масштабируемость. Однако их высокая вычислительная сложность остается основным препятствием для практического применения. Существующие методы ускорения в основном используют временное измерение, например, повторное использование кэшированных признаков на различных шагах диффузии. В данной работе мы предлагаем Region-Adaptive Latent Upsampling (RALU), фреймворк, не требующий обучения, который ускоряет вывод данных по пространственному измерению. RALU выполняет выборку с различным разрешением в три этапа: 1) низкоразрешающая денойзинговая латентная диффузия для эффективного захвата глобальной семантической структуры, 2) регионально-адаптивное повышение разрешения на участках, склонных к артефактам при полном разрешении, и 3) полное повышение разрешения латентного пространства для уточнения деталей. Для стабилизации генерации при переходе между разрешениями мы используем перепланировку шумовых временных шагов для адаптации уровня шума к различным разрешениям. Наш метод значительно сокращает вычислительные затраты, сохраняя качество изображения, достигая ускорения до 7.0 раз на FLUX и 3.0 раз на Stable Diffusion 3 с минимальной деградацией. Кроме того, RALU дополняет существующие временные методы ускорения, такие как методы кэширования, и может быть легко интегрирован для дальнейшего снижения задержки вывода без ущерба для качества генерации.
English
Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.
PDF355July 23, 2025