L2P: Desbloqueando el potencial latente para la generación de píxeles

Resumen

Los modelos de difusión de píxeles han recuperado recientemente la atención en la generación visual. Sin embargo, entrenar modelos avanzados de espacio de píxeles desde cero exige recursos computacionales y de datos prohibitivos. Para abordar esto, proponemos el paradigma de transferencia Latente-a-Píxel (L2P), un marco eficiente que aprovecha directamente el rico conocimiento de los MDE preentrenados para construir modelos potentes de espacio de píxeles. En concreto, L2P descarta el VAE en favor de la tokenización de parches grandes y congela las capas intermedias del MDE fuente, entrenando exclusivamente capas superficiales para aprender la transformación latente-a-píxel. Al utilizar imágenes sintéticas generadas por el MDE como único corpus de entrenamiento, L2P se ajusta a una variedad de datos ya suave, permitiendo una convergencia rápida sin recolección de datos reales. Esta estrategia permite a L2P migrar sin problemas los masivos priors latentes al espacio de píxeles utilizando solo 8 GPU. Además, eliminar el cuello de botella de memoria del VAE habilita la generación nativa de resolución ultra alta 4K. Experimentos exhaustivos en arquitecturas de MDE convencionales muestran que L2P incurre en una sobrecarga de entrenamiento insignificante, con un rendimiento comparable al del MDE fuente en DPG-Bench y alcanzando un 93 % del rendimiento en GenEval.

English

Pixel diffusion models have recently regained attention for visual generation. However, training advanced pixel-space models from scratch demands prohibitive computational and data resources. To address this, we propose the Latent-to-Pixel (L2P) transfer paradigm, an efficient framework that directly harnesses the rich knowledge of pre-trained LDMs to build powerful pixel-space models. Specifically, L2P discards the VAE in favor of large-patch tokenization and freezes the source LDM's intermediate layers, exclusively training shallow layers to learn the latent-to-pixel transformation. By utilizing LDM-generated synthetic images as the sole training corpus, L2P fits an already smooth data manifold, enabling rapid convergence with zero real-data collection. This strategy allows L2P to seamlessly migrate massive latent priors to the pixel space using only 8 GPUs. Furthermore, eliminating the VAE memory bottleneck unlocks native 4K ultra-high resolution generation. Extensive experiments across mainstream LDM architectures show that L2P incurs negligible training overhead, yet performs on par with the source LDM on DPG-Bench and reaches 93% performance on GenEval.

L2P: Desbloqueando el potencial latente para la generación de píxeles

L2P: Unlocking Latent Potential for Pixel Generation

Resumen

Support