ChatPaper.aiChatPaper

Повышение эффективности латентных диффузионных моделей через согласование разъединенных представлений

Boosting Latent Diffusion Models via Disentangled Representation Alignment

January 9, 2026
Авторы: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI

Аннотация

Латентные диффузионные модели (LDM) генерируют высококачественные изображения, работая в сжатом латентном пространстве, которое обычно получают с помощью токенизаторов изображений, таких как вариационные автоэнкодеры (VAE). В поисках VAE, удобного для генерации, последние исследования изучали использование моделей компьютерного зрения общего назначения (VFM) в качестве целей для выравнивания представлений VAE, повторяя подход, обычно применяемый для LDM. Хотя это дает определенный прирост производительности, использование одной и той же цели выравнивания как для VAE, так и для LDM игнорирует их фундаментально различные репрезентационные требования. Мы утверждаем, что в то время как LDM выигрывают от латентных переменных, сохраняющих высокоуровневые семантические концепты, VAE должны превосходно справляться с семантическим разделением признаков, позволяя кодировать информацию на уровне атрибутов структурированным образом. Для решения этой проблемы мы предлагаем VAE с семантическим разделением признаков (Send-VAE), явно оптимизированный для обучения разделенным представлениям путем выравнивания его латентного пространства с семантической иерархией предобученных VFM. Наш подход использует нелинейную mapper-сеть для преобразования латентных переменных VAE, выравнивая их с VFM, чтобы преодолеть разрыв между разделением признаков на уровне атрибутов и высокоуровневой семантикой, обеспечивая эффективное руководство для обучения VAE. Мы оцениваем семантическое разделение признаков с помощью линейного probing на задачах предсказания атрибутов, показывая сильную корреляцию с улучшенной производительностью генерации. Наконец, используя Send-VAE, мы обучаем трансформеры на основе потоков (SiT); эксперименты показывают, что Send-VAE значительно ускоряет обучение и достигает наилучшего показателя FID в 1.21 и 1.75 с использованием классификатор-фри guidance и без него на ImageNet 256x256.
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.
PDF173January 31, 2026