Síntesis Eficiente de Imágenes con Codificador Latente de Esfera

Resumen

La generación de imágenes en pocos pasos ha experimentado un rápido progreso, con métodos basados en consistencia y flujo medio que reducen significativamente el número de pasos de muestreo. A pesar de su bajo costo de inferencia, estos enfoques suelen presentar inestabilidad en el entrenamiento y una escalabilidad limitada. Sphere Encoder es una alternativa reciente que produce imágenes de alta calidad en solo unos pocos pasos; sin embargo, requiere transiciones repetidas entre el espacio de píxeles y el espacio latente durante la inferencia, optimizando conjuntamente reconstrucción y generación dentro de una única arquitectura. Este diseño conduce a una ineficiencia computacional y a un conflicto objetivo entre reconstrucción y generación. Para abordar estas limitaciones, desacoplamos el marco en un codificador de imágenes preentrenado fijo y un modelo de eliminación de ruido latente entrenado completamente en un espacio latente esférico. Nuestro enfoque elimina las operaciones repetidas en el espacio de píxeles durante el entrenamiento y la inferencia, mejorando la eficiencia y permitiendo que la reconstrucción y la generación se especialicen de forma independiente. En los conjuntos de datos Animal-Faces, Oxford-Flowers e ImageNet-1K, nuestro método supera significativamente a Sphere Encoder tanto en calidad de generación como en velocidad de inferencia, a la vez que logra resultados competitivos frente a líneas base sólidas de pocos pasos y múltiples pasos.

English

Few-step image generation has seen rapid progress, with consistency and meanflow-based methods significantly reducing the number of sampling steps. Despite their low inference cost, these approaches often suffer from training instability and limited scalability. Sphere Encoder is a recent alternative that produces high-quality images in only a few steps; however, it requires repeated transitions between the pixel space and latent space during inference while jointly optimizing reconstruction and generation within a single architecture. This design leads to computational inefficiency and objective conflict between reconstruction and generation. To address these limitations, we decouple the framework into a fixed pretrained image encoder and a separate latent denoising model trained entirely in a spherical latent space. Our approach eliminates repeated pixel-space operations during training and inference, improving efficiency and allowing reconstruction and generation to specialize independently. On Animal-Faces, Oxford-Flowers and ImageNet-1K datasets, our method significantly outperforms Sphere Encoder in both generation quality and inference speed, while achieving competitive results against strong few-step and multi-step baselines.