ChatPaper.aiChatPaper

Reconstructie versus Generatie: Het Temmen van het Optimalisatie Dilemma in Latente Diffusie Modellen

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

January 2, 2025
Auteurs: Jingfeng Yao, Xinggang Wang
cs.AI

Samenvatting

Latente diffusiemodellen met Transformer-architecturen blinken uit in het genereren van hoogwaardige afbeeldingen. Recent onderzoek onthult echter een optimalisatiedilemma in dit tweestapsontwerp: het verhogen van de kenmerkdimensie per token in visuele tokenizers verbetert de reconstructiekwaliteit, maar vereist aanzienlijk grotere diffusiemodellen en meer trainingsiteraties om vergelijkbare generatieprestaties te bereiken. Als gevolg hiervan kiezen bestaande systemen vaak voor suboptimale oplossingen, waarbij ze ofwel visuele artefacten produceren door informatieverlies binnen tokenizers, ofwel niet volledig convergeren vanwege hoge berekeningskosten. Wij stellen dat dit dilemma voortkomt uit de inherente moeilijkheid van het leren van onbeperkte hoogdimensionale latente ruimtes. Om dit aan te pakken, stellen we voor om de latente ruimte af te stemmen op vooraf getrainde vision foundation-modellen bij het trainen van de visuele tokenizers. Ons voorgestelde VA-VAE (Vision foundation model Aligned Variational AutoEncoder) breidt aanzienlijk de reconstructie-generatiegrens van latente diffusiemodellen uit, waardoor een snellere convergentie van Diffusion Transformers (DiT) in hoogdimensionale latente ruimtes mogelijk is. Om het volledige potentieel van VA-VAE te benutten, bouwen we een verbeterde DiT-baseline met verbeterde trainingsstrategieën en architectuurontwerpen, genaamd LightningDiT. Het geïntegreerde systeem behaalt state-of-the-art (SOTA) prestaties op ImageNet 256x256 generatie met een FID-score van 1.35, terwijl het opmerkelijke trainingsefficiëntie aantoont door een FID-score van 2.11 te bereiken in slechts 64 epochs - wat een meer dan 21 keer snellere convergentie vertegenwoordigt in vergelijking met de oorspronkelijke DiT. Modellen en codes zijn beschikbaar op: https://github.com/hustvl/LightningDiT.
English
Latent diffusion models with Transformer architectures excel at generating high-fidelity images. However, recent studies reveal an optimization dilemma in this two-stage design: while increasing the per-token feature dimension in visual tokenizers improves reconstruction quality, it requires substantially larger diffusion models and more training iterations to achieve comparable generation performance. Consequently, existing systems often settle for sub-optimal solutions, either producing visual artifacts due to information loss within tokenizers or failing to converge fully due to expensive computation costs. We argue that this dilemma stems from the inherent difficulty in learning unconstrained high-dimensional latent spaces. To address this, we propose aligning the latent space with pre-trained vision foundation models when training the visual tokenizers. Our proposed VA-VAE (Vision foundation model Aligned Variational AutoEncoder) significantly expands the reconstruction-generation frontier of latent diffusion models, enabling faster convergence of Diffusion Transformers (DiT) in high-dimensional latent spaces. To exploit the full potential of VA-VAE, we build an enhanced DiT baseline with improved training strategies and architecture designs, termed LightningDiT. The integrated system achieves state-of-the-art (SOTA) performance on ImageNet 256x256 generation with an FID score of 1.35 while demonstrating remarkable training efficiency by reaching an FID score of 2.11 in just 64 epochs--representing an over 21 times convergence speedup compared to the original DiT. Models and codes are available at: https://github.com/hustvl/LightningDiT.

Summary

AI-Generated Summary

PDF432January 3, 2025