ChatPaper.aiChatPaper

Upsample What Matters: Region-adaptive latente Abtastung für beschleunigte Diffusionstransformatoren

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

July 11, 2025
papers.authors: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI

papers.abstract

Diffusion-Transformer haben sich als Alternative zu U-Net-basierten Diffusionsmodellen für die hochauflösende Bild- und Videogenerierung etabliert und bieten eine überlegene Skalierbarkeit. Allerdings bleibt ihr hoher Rechenaufwand ein wesentliches Hindernis für den praktischen Einsatz. Bestehende Beschleunigungsmethoden nutzen vorwiegend die zeitliche Dimension, beispielsweise durch die Wiederverwendung von zwischengespeicherten Merkmalen über verschiedene Diffusions-Zeitschritte hinweg. Hier schlagen wir Region-Adaptive Latent Upsampling (RALU) vor, ein trainingsfreies Framework, das die Inferenz entlang der räumlichen Dimension beschleunigt. RALU führt eine gemischte Auflösungsabtastung in drei Stufen durch: 1) Rauschreduktion in niedriger Auflösung durch latente Diffusion, um effizient die globale semantische Struktur zu erfassen, 2) regionsadaptives Upsampling spezifischer Bereiche, die bei voller Auflösung anfällig für Artefakte sind, und 3) vollständiges latentes Upsampling in hoher Auflösung zur Detailverfeinerung. Um die Generierung über Auflösungsübergänge hinweg zu stabilisieren, nutzen wir eine Rausch-Zeitschritt-Neuplanung, um das Rauschniveau über verschiedene Auflösungen anzupassen. Unsere Methode reduziert den Rechenaufwand erheblich, während die Bildqualität erhalten bleibt, indem sie eine Beschleunigung um bis zu das 7,0-fache bei FLUX und das 3,0-fache bei Stable Diffusion 3 mit minimaler Qualitätseinbuße erreicht. Darüber hinaus ist RALU komplementär zu bestehenden zeitlichen Beschleunigungsmethoden wie Caching-Verfahren und kann nahtlos integriert werden, um die Inferenzlatenz weiter zu reduzieren, ohne die Generierungsqualität zu beeinträchtigen.
English
Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.
PDF355July 23, 2025