L2P: Раскрытие латентного потенциала для генерации пикселей

Аннотация

Модели пиксельной диффузии в последнее время вновь привлекли внимание в области визуальной генерации. Однако обучение продвинутых моделей пиксельного пространства «с нуля» требует запретительно высоких вычислительных и ресурсных затрат. Для решения этой проблемы мы предлагаем парадигму переноса «латентное в пиксельное» (L2P) — эффективный фреймворк, который напрямую использует богатые знания предобученных LDM для построения мощных моделей пиксельного пространства. В частности, L2P отказывается от VAE в пользу токенизации крупными патчами и замораживает промежуточные слои исходной LDM, обучая только мелкие слои для изучения преобразования из латентного пространства в пиксельное. Используя сгенерированные LDM синтетические изображения в качестве единственного обучающего корпуса, L2P подгоняет уже гладкое многообразие данных, что позволяет быстро сходиться без сбора реальных данных. Данная стратегия позволяет L2P плавно переносить масштабные латентные априорные знания в пиксельное пространство, используя всего 8 GPU. Кроме того, устранение узкого места памяти VAE открывает возможность нативной генерации со сверхвысоким разрешением 4K. Обширные эксперименты с основными архитектурами LDM показывают, что L2P требует незначительных вычислительных затрат на обучение, но при этом демонстрирует производительность, сопоставимую с исходной LDM на DPG-Bench, и достигает 93% эффективности на GenEval.

English

Pixel diffusion models have recently regained attention for visual generation. However, training advanced pixel-space models from scratch demands prohibitive computational and data resources. To address this, we propose the Latent-to-Pixel (L2P) transfer paradigm, an efficient framework that directly harnesses the rich knowledge of pre-trained LDMs to build powerful pixel-space models. Specifically, L2P discards the VAE in favor of large-patch tokenization and freezes the source LDM's intermediate layers, exclusively training shallow layers to learn the latent-to-pixel transformation. By utilizing LDM-generated synthetic images as the sole training corpus, L2P fits an already smooth data manifold, enabling rapid convergence with zero real-data collection. This strategy allows L2P to seamlessly migrate massive latent priors to the pixel space using only 8 GPUs. Furthermore, eliminating the VAE memory bottleneck unlocks native 4K ultra-high resolution generation. Extensive experiments across mainstream LDM architectures show that L2P incurs negligible training overhead, yet performs on par with the source LDM on DPG-Bench and reaches 93% performance on GenEval.

L2P: Раскрытие латентного потенциала для генерации пикселей

L2P: Unlocking Latent Potential for Pixel Generation

Аннотация

Support