ChatPaper.aiChatPaper

La Semántica Marca el Camino: Armonización del Modelado Semántico y Textural con Difusión Latente Asíncrona

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
Autores: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

Resumen

Los Modelos de Difusión Latente (LDM, por sus siglas en inglés) siguen inherentemente un proceso de generación de bajo a alto detalle (coarse-to-fine), en el que la estructura semántica de alto nivel se genera ligeramente antes que la textura de grano fino. Esto indica que la semántica precedente potencialmente beneficia la generación de textura al proporcionar un ancla semántica. Avances recientes han integrado conocimientos previos semánticos de codificadores visuales preentrenados para mejorar aún más los LDM, pero aún así aplican la eliminación de ruido a la semántica y a la textura codificada por VAE de forma sincrónica, pasando por alto dicho orden temporal. Observando esto, proponemos Difusión con Prioridad Semántica (SFD, Semantic-First Diffusion), un paradigma de difusión latente que prioriza explícitamente la formación semántica. SFD primero construye latentes compuestos combinando un latente semántico compacto, que se extrae de un codificador visual preentrenado mediante un VAE Semántico dedicado, con el latente de textura. El núcleo de SFD es eliminar el ruido de los latentes semánticos y de textura de forma asíncrona utilizando programaciones de ruido separadas: la semántica precede a las texturas con un desplazamiento temporal, proporcionando una guía de alto nivel más clara para el refinamiento de texturas y permitiendo una generación natural de bajo a alto detalle. En ImageNet 256x256 con guía, SFD logra un FID de 1.06 (LightningDiT-XL) y un FID de 1.04 (LightningDiT-XXL de 1.0B), mientras alcanza una convergencia hasta 100 veces más rápida que la DiT original. SFD también mejora métodos existentes como ReDi y VA-VAE, demostrando la efectividad del modelado asíncrono liderado por la semántica. Página del proyecto y código: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF261December 6, 2025