Effiziente Bildsynthese mit Sphären-Latent-Encoder

Zusammenfassung

Die Bildgenerierung mit wenigen Schritten hat rasche Fortschritte gemacht, wobei konsistenz- und mittelwertbasierte Methoden die Anzahl der Abtastschritte deutlich reduziert haben. Trotz ihrer geringen Inferenzkosten leiden diese Ansätze oft unter Trainingsinstabilität und eingeschränkter Skalierbarkeit. Der Sphere Encoder ist eine aktuelle Alternative, die qualitativ hochwertige Bilder in nur wenigen Schritten erzeugt; jedoch erfordert er während der Inferenz wiederholte Übergänge zwischen Pixelraum und latentem Raum, während Rekonstruktion und Generierung innerhalb einer einzigen Architektur gemeinsam optimiert werden. Dieses Design führt zu Rechenineffizienz und Zielkonflikten zwischen Rekonstruktion und Generierung. Um diese Einschränkungen zu beheben, entkoppeln wir das Framework in einen festen, vortrainierten Bildencoder und ein separates latentes Denoising-Modell, das vollständig in einem sphärischen latenten Raum trainiert wird. Unser Ansatz eliminiert wiederholte Operationen im Pixelraum während Training und Inferenz, verbessert die Effizienz und ermöglicht es Rekonstruktion und Generierung, sich unabhängig zu spezialisieren. Auf den Datensätzen Animal-Faces, Oxford-Flowers und ImageNet-1K übertrifft unsere Methode den Sphere Encoder sowohl in der Generierungsqualität als auch in der Inferenzgeschwindigkeit deutlich, während sie wettbewerbsfähige Ergebnisse gegenüber starken Baselines mit wenigen und vielen Schritten erzielt.

English

Few-step image generation has seen rapid progress, with consistency and meanflow-based methods significantly reducing the number of sampling steps. Despite their low inference cost, these approaches often suffer from training instability and limited scalability. Sphere Encoder is a recent alternative that produces high-quality images in only a few steps; however, it requires repeated transitions between the pixel space and latent space during inference while jointly optimizing reconstruction and generation within a single architecture. This design leads to computational inefficiency and objective conflict between reconstruction and generation. To address these limitations, we decouple the framework into a fixed pretrained image encoder and a separate latent denoising model trained entirely in a spherical latent space. Our approach eliminates repeated pixel-space operations during training and inference, improving efficiency and allowing reconstruction and generation to specialize independently. On Animal-Faces, Oxford-Flowers and ImageNet-1K datasets, our method significantly outperforms Sphere Encoder in both generation quality and inference speed, while achieving competitive results against strong few-step and multi-step baselines.