Potencializando Modelos de Difusão Latente por meio do Alinhamento de Representações Desacopladas

Resumo

Os Modelos de Difusão Latente (LDMs) geram imagens de alta qualidade operando em um espaço latente comprimido, tipicamente obtido por meio de tokenizadores de imagem como Autoencoders Variacionais (VAEs). Na busca por um VAE favorável à geração, estudos recentes exploraram o aproveitamento de Modelos de Visão de Base (VFMs) como alvos de alinhamento de representação para VAEs, espelhando a abordagem comumente adotada para LDMs. Embora isso produza certos ganhos de desempenho, usar o mesmo alvo de alinhamento para VAEs e LDMs ignora seus requisitos representacionais fundamentalmente diferentes. Defendemos que, enquanto os LDMs beneficiam-se de latentes que retêm conceitos semânticos de alto nível, os VAEs devem destacar-se no desembaraço semântico, permitindo a codificação de informações a nível de atributo de forma estruturada. Para resolver isso, propomos o VAE com Desembaraço Semântico (Send-VAE), explicitamente otimizado para aprendizado de representação desembaraçada através do alinhamento do seu espaço latente com a hierarquia semântica de VFMs pré-treinados. Nossa abordagem emprega uma rede mapeadora não-linear para transformar os latentes do VAE, alinhando-os com VFMs para preencher a lacuna entre o desembaraço a nível de atributo e a semântica de alto nível, facilitando uma orientação eficaz para o aprendizado do VAE. Avaliamos o desembaraço semântico via *linear probing* em tarefas de predição de atributos, mostrando forte correlação com a melhoria do desempenho de geração. Por fim, usando o Send-VAE, treinamos *transformers* baseados em *flow* (SiTs); experimentos mostram que o Send-VAE acelera significativamente o treinamento e alcança um FID state-of-the-art de 1.21 e 1.75 com e sem orientação *classifier-free* no ImageNet 256x256.

English

Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.

Potencializando Modelos de Difusão Latente por meio do Alinhamento de Representações Desacopladas

Boosting Latent Diffusion Models via Disentangled Representation Alignment

Resumo

Support