Beeldgeneratie met een Sferische Encoder

Samenvatting

Wij introduceren de Sphere Encoder, een efficiënt generatief raamwerk dat in één enkele voorwaartse pass beelden kan produceren en kan concurreren met meerstaps-diffusiemodellen met minder dan vijf stappen. Onze aanpak werkt door een encoder te leren die natuurlijke beelden uniform afbeeldt op een sferische latente ruimte, en een decoder die willekeurige latente vectoren terugmapt naar de beeldruimte. Uitsluitend getraind met beeldreconstructieverliezen, genereert het model een beeld door simpelweg een willekeurig punt op de bol te decoderen. Onze architectuur ondersteunt van nature conditionele generatie, en het enkele malen doorlopen van de encoder/decoder kan de beeldkwaliteit verder verbeteren. Over verschillende datasets laat de sphere encoder-aanpak prestaties zien die concurrerend zijn met state-of-the-art diffusiemodellen, maar met een fractie van de inferentiekosten. De projectpagina is beschikbaar op https://sphere-encoder.github.io.

English

We introduce the Sphere Encoder, an efficient generative framework capable of producing images in a single forward pass and competing with many-step diffusion models using fewer than five steps. Our approach works by learning an encoder that maps natural images uniformly onto a spherical latent space, and a decoder that maps random latent vectors back to the image space. Trained solely through image reconstruction losses, the model generates an image by simply decoding a random point on the sphere. Our architecture naturally supports conditional generation, and looping the encoder/decoder a few times can further enhance image quality. Across several datasets, the sphere encoder approach yields performance competitive with state of the art diffusions, but with a small fraction of the inference cost. Project page is available at https://sphere-encoder.github.io .

Beeldgeneratie met een Sferische Encoder

Image Generation with a Sphere Encoder

Samenvatting

Support