Generazione di Immagini con un Codificatore Sferico
Image Generation with a Sphere Encoder
February 16, 2026
Autori: Kaiyu Yue, Menglin Jia, Ji Hou, Tom Goldstein
cs.AI
Abstract
Introduciamo lo Sphere Encoder, un framework generativo efficiente in grado di produrre immagini in un singolo passaggio in avanti e di competere con modelli di diffusione a molti step utilizzando meno di cinque passi. Il nostro approccio funziona apprendendo un encoder che mappa uniformemente le immagini naturali su uno spazio latente sferico, e un decoder che rimappa i vettori latenti casuali nello spazio delle immagini. Addestrato esclusivamente tramite loss di ricostruzione d'immagine, il modello genera un'immagine semplicemente decodificando un punto casuale sulla sfera. La nostra architettura supporta naturalmente la generazione condizionata, e l'esecuzione in ciclo di encoder/decoder per poche volte può ulteriormente migliorare la qualità dell'immagine. Su diversi dataset, l'approccio dello sphere encoder produce performance competitive con i migliori modelli di diffusione allo stato dell'arte, ma con una frazione minima del costo inferenziale. La pagina del progetto è disponibile all'indirizzo https://sphere-encoder.github.io.
English
We introduce the Sphere Encoder, an efficient generative framework capable of producing images in a single forward pass and competing with many-step diffusion models using fewer than five steps. Our approach works by learning an encoder that maps natural images uniformly onto a spherical latent space, and a decoder that maps random latent vectors back to the image space. Trained solely through image reconstruction losses, the model generates an image by simply decoding a random point on the sphere. Our architecture naturally supports conditional generation, and looping the encoder/decoder a few times can further enhance image quality. Across several datasets, the sphere encoder approach yields performance competitive with state of the art diffusions, but with a small fraction of the inference cost. Project page is available at https://sphere-encoder.github.io .