Potenciación de Modelos de Difusión Latente mediante Alineación de Representaciones Disociadas
Boosting Latent Diffusion Models via Disentangled Representation Alignment
January 9, 2026
Autores: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI
Resumen
Los Modelos de Difusión Latente (LDM) generan imágenes de alta calidad operando en un espacio latente comprimido, típicamente obtenido mediante tokenizadores de imagen como los Autoencoders Variacionales (VAE). En la búsqueda de un VAE favorable para la generación, estudios recientes han explorado el uso de Modelos Base de Visión (VFM) como objetivos de alineación de representaciones para los VAE, reflejando el enfoque comúnmente adoptado para los LDM. Aunque esto produce ciertas mejoras de rendimiento, utilizar el mismo objetivo de alineación tanto para VAE como para LDM pasa por alto sus requisitos de representación fundamentalmente diferentes. Sostenemos que, mientras los LDM se benefician de latentes que conservan conceptos semánticos de alto nivel, los VAE deberían sobresalir en el desentrelazamiento semántico, permitiendo codificar información a nivel de atributos de manera estructurada. Para abordar esto, proponemos el VAE de Desentrelazamiento Semántico (Send-VAE), optimizado explícitamente para el aprendizaje de representaciones desentrelazadas mediante la alineación de su espacio latente con la jerarquía semántica de VFM preentrenados. Nuestro enfoque emplea una red mapeadora no lineal para transformar los latentes del VAE, alineándolos con los VFM para cerrar la brecha entre el desentrelazamiento a nivel de atributos y la semántica de alto nivel, facilitando una guía efectiva para el aprendizaje del VAE. Evaluamos el desentrelazamiento semántico mediante sondeo lineal en tareas de predicción de atributos, mostrando una fuerte correlación con la mejora del rendimiento generativo. Finalmente, utilizando Send-VAE, entrenamos transformers basados en flujos (SiT); los experimentos muestran que Send-VAE acelera significativamente el entrenamiento y alcanza un FID state-of-the-art de 1.21 y 1.75 con y sin guía libre de clasificador en ImageNet 256x256.
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.