ChatPaper.aiChatPaper

중요한 부분을 업샘플링하라: 가속화된 디퓨전 트랜스포머를 위한 지역 적응형 잠재 샘플링

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

July 11, 2025
저자: Wongi Jeong, Kyungryeol Lee, Hoigi Seo, Se Young Chun
cs.AI

초록

디퓨전 트랜스포머(Diffusion Transformers)는 고해상도 이미지 및 비디오 생성을 위한 U-net 기반 디퓨전 모델의 대안으로 등장하며, 더 우수한 확장성을 제공합니다. 그러나 이들의 높은 계산 부하는 실제 환경에서의 배포에 있어 주요 장애물로 남아 있습니다. 기존의 가속화 방법들은 주로 디퓨션 타임스텝 간 캐시된 특징을 재사용하는 등 시간적 차원을 활용해 왔습니다. 본 연구에서는 공간적 차원에서 추론을 가속화하는 훈련이 필요 없는 프레임워크인 지역 적응형 잠재 업샘플링(Region-Adaptive Latent Upsampling, RALU)을 제안합니다. RALU은 세 단계에 걸쳐 혼합 해상도 샘플링을 수행합니다: 1) 전역적 의미 구조를 효율적으로 포착하기 위한 저해상도 잡음 제거 잠재 디퓨전, 2) 전체 해상도에서 아티팩트가 발생하기 쉬운 특정 영역에 대한 지역 적응형 업샘플링, 그리고 3) 세부 사항 정제를 위한 전체 해상도의 잠재 업샘플링. 해상도 전환 간 생성물의 안정성을 위해, 우리는 다양한 해상도에 걸쳐 노이즈 레벨을 조정하기 위해 노이즈-타임스텝 재스케줄링을 활용합니다. 우리의 방법은 FLUX에서 최대 7.0배, Stable Diffusion 3에서 3.0배의 속도 향상을 달성하면서도 최소한의 품질 저하로 계산량을 크게 줄입니다. 더욱이, RALU은 캐싱 방법과 같은 기존의 시간적 가속화 기술과 상호 보완적이므로, 생성 품질을 저하시키지 않으면서도 추론 지연 시간을 더욱 줄이기 위해 원활하게 통합될 수 있습니다.
English
Diffusion transformers have emerged as an alternative to U-net-based diffusion models for high-fidelity image and video generation, offering superior scalability. However, their heavy computation remains a major obstacle to real-world deployment. Existing acceleration methods primarily exploit the temporal dimension such as reusing cached features across diffusion timesteps. Here, we propose Region-Adaptive Latent Upsampling (RALU), a training-free framework that accelerates inference along spatial dimension. RALU performs mixed-resolution sampling across three stages: 1) low-resolution denoising latent diffusion to efficiently capture global semantic structure, 2) region-adaptive upsampling on specific regions prone to artifacts at full-resolution, and 3) all latent upsampling at full-resolution for detail refinement. To stabilize generations across resolution transitions, we leverage noise-timestep rescheduling to adapt the noise level across varying resolutions. Our method significantly reduces computation while preserving image quality by achieving up to 7.0times speed-up on FLUX and 3.0times on Stable Diffusion 3 with minimal degradation. Furthermore, RALU is complementary to existing temporal accelerations such as caching methods, thus can be seamlessly integrated to further reduce inference latency without compromising generation quality.
PDF355July 23, 2025