L2P : Libérer le potentiel latent pour la génération de pixels

Résumé

Les modèles de diffusion pixel ont récemment regagné l'attention pour la génération visuelle. Cependant, l'entraînement de modèles avancés dans l'espace pixel à partir de zéro nécessite des ressources computationnelles et de données prohibitives. Pour y remédier, nous proposons le paradigme de transfert Latent-à-Pixel (L2P), un cadre efficace qui exploite directement les connaissances riches des LDM pré-entraînés pour construire des modèles puissants dans l'espace pixel. Spécifiquement, L2P abandonne le VAE au profit d'une tokenisation par grands patches et gèle les couches intermédiaires du LDM source, n'entraînant que les couches superficielles pour apprendre la transformation latent-à-pixel. En utilisant comme unique corpus d'entraînement des images synthétiques générées par LDM, L2P s'adapte à une variété de données déjà lisse, permettant une convergence rapide sans collecte de données réelles. Cette stratégie permet à L2P de migrer de manière transparente les vastes priorités latentes vers l'espace pixel en utilisant seulement 8 GPU. De plus, l'élimination du goulot d'étranglement mémoire du VAE permet la génération native ultra-haute résolution en 4K. Des expériences approfondies sur les architectures LDM dominantes montrent que L2P n'engendre qu'un surcoût d'entraînement négligeable, tout en atteignant des performances équivalentes au LDM source sur DPG-Bench et 93 % des performances sur GenEval.

English

Pixel diffusion models have recently regained attention for visual generation. However, training advanced pixel-space models from scratch demands prohibitive computational and data resources. To address this, we propose the Latent-to-Pixel (L2P) transfer paradigm, an efficient framework that directly harnesses the rich knowledge of pre-trained LDMs to build powerful pixel-space models. Specifically, L2P discards the VAE in favor of large-patch tokenization and freezes the source LDM's intermediate layers, exclusively training shallow layers to learn the latent-to-pixel transformation. By utilizing LDM-generated synthetic images as the sole training corpus, L2P fits an already smooth data manifold, enabling rapid convergence with zero real-data collection. This strategy allows L2P to seamlessly migrate massive latent priors to the pixel space using only 8 GPUs. Furthermore, eliminating the VAE memory bottleneck unlocks native 4K ultra-high resolution generation. Extensive experiments across mainstream LDM architectures show that L2P incurs negligible training overhead, yet performs on par with the source LDM on DPG-Bench and reaches 93% performance on GenEval.

L2P : Libérer le potentiel latent pour la génération de pixels

L2P: Unlocking Latent Potential for Pixel Generation

Résumé

Support