ChatPaper.aiChatPaper

의미론이 길을 열다: 비동기 잠재 확산을 통한 의미론과 질감 모델링의 조화

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
저자: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

초록

잠재 확산 모델(LDM)은 본질적으로 coarse-to-fine 생성 과정을 따르며, 고수준 의미 구조가 세밀한 텍스처보다 약간 더 일찍 생성됩니다. 이는 선행되는 의미가 의미적 정착점(semantic anchor)을 제공함으로써 텍스처 생성에 잠재적으로 이점을 준다는 것을 시사합니다. 최근 발전된 방법들은 사전 학습된 시각 인코더로부터 의미적 사전 지식(prior)을 통합하여 LDM을 더욱 향상시키고 있지만, 여전히 의미 정보와 VAE로 인코딩된 텍스처 정보를 동기적으로 잡음을 제거하며 이러한 생성 순서를 간과하고 있습니다. 이를 관찰하여, 우리는 의미 형성을 명시적으로 우선시하는 잠재 확산 패러다임인 Semantic-First Diffusion(SFD)을 제안합니다. SFD는 전용 Semantic VAE를 통해 사전 학습된 시각 인코더에서 추출한 간결한 의미 잠재 표현(semantic latent)과 텍스처 잠재 표현(texture latent)을 결합하여 복합 잠재 표현(composite latents)을 먼저 구성합니다. SFD의 핵심은 별도의 노이즈 스케줄을 사용하여 의미와 텍스처 잠재 표현을 비동기적으로 잡음을 제거하는 것으로, 의미 처리가 텍스처 처리보다 시간적 오프셋(temporal offset)을 두고 선행되어 텍스처 정제를 위한 더 명확한 고수준 지도를 제공하고 자연스러운 coarse-to-fine 생성을 가능하게 합니다. guidance를 적용한 ImageNet 256x256에서 SFD는 FID 1.06(LightningDiT-XL) 및 FID 1.04(1.0B LightningDiT-XXL)를 달성했으며, 기존 DiT 대비 최대 100배 빠른 수렴 속도를 달성했습니다. SFD는 ReDi 및 VA-VAE와 같은 기존 방법도 개선하여 비동기적이고 의미 주도적인 모델링의 효과를 입증합니다. 프로젝트 페이지 및 코드: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF261December 6, 2025