Efficiënte Beeldsynthese met Bolvormige Latente Encoder

Samenvatting

De beeldgeneratie in weinig stappen heeft een snelle vooruitgang geboekt, waarbij op consistentie en meanflow gebaseerde methoden het aantal bemonsteringsstappen aanzienlijk hebben verminderd. Ondanks hun lage inferentiekosten hebben deze benaderingen vaak te kampen met trainingsinstabiliteit en beperkte schaalbaarheid. Sphere Encoder is een recent alternatief dat in slechts enkele stappen hoogwaardige afbeeldingen produceert; het vereist echter herhaalde overgangen tussen de pixelruimte en de latente ruimte tijdens de inferentie, terwijl reconstructie en generatie gezamenlijk worden geoptimaliseerd binnen één architectuur. Dit ontwerp leidt tot computationele inefficiëntie en een objectiefconflict tussen reconstructie en generatie. Om deze beperkingen aan te pakken, ontkoppelen we het raamwerk in een vaste voorgetrainde beeldencoder en een apart latent onruismodel dat volledig wordt getraind in een bolvormige latente ruimte. Onze aanpak elimineert herhaalde bewerkingen in de pixelruimte tijdens training en inferentie, waardoor de efficiëntie toeneemt en reconstructie en generatie onafhankelijk kunnen specialiseren. Op de datasets Animal-Faces, Oxford-Flowers en ImageNet-1K presteert onze methode significant beter dan Sphere Encoder, zowel wat betreft generatiekwaliteit als inferentiesnelheid, terwijl concurrerende resultaten worden behaald ten opzichte van sterke weinige-stap- en meerstap-basislijnen.

English

Few-step image generation has seen rapid progress, with consistency and meanflow-based methods significantly reducing the number of sampling steps. Despite their low inference cost, these approaches often suffer from training instability and limited scalability. Sphere Encoder is a recent alternative that produces high-quality images in only a few steps; however, it requires repeated transitions between the pixel space and latent space during inference while jointly optimizing reconstruction and generation within a single architecture. This design leads to computational inefficiency and objective conflict between reconstruction and generation. To address these limitations, we decouple the framework into a fixed pretrained image encoder and a separate latent denoising model trained entirely in a spherical latent space. Our approach eliminates repeated pixel-space operations during training and inference, improving efficiency and allowing reconstruction and generation to specialize independently. On Animal-Faces, Oxford-Flowers and ImageNet-1K datasets, our method significantly outperforms Sphere Encoder in both generation quality and inference speed, while achieving competitive results against strong few-step and multi-step baselines.