ChatPaper.aiChatPaper

Generación de Imágenes con un Codificador Esférico

Image Generation with a Sphere Encoder

February 16, 2026
Autores: Kaiyu Yue, Menglin Jia, Ji Hou, Tom Goldstein
cs.AI

Resumen

Presentamos el Sphere Encoder, un marco generativo eficiente capaz de producir imágenes en un único pase hacia adelante y que compite con modelos de difusión de múltiples pasos utilizando menos de cinco etapas. Nuestro enfoque funciona aprendiendo un codificador que mapea imágenes naturales de manera uniforme sobre un espacio latente esférico, y un decodificador que mapea vectores latentes aleatorios de vuelta al espacio de imágenes. Entrenado únicamente mediante pérdidas de reconstrucción de imágenes, el modelo genera una imagen simplemente decodificando un punto aleatorio en la esfera. Nuestra arquitectura admite de forma natural la generación condicional, y el hacer un bucle con el codificador/decodificador unas pocas veces puede mejorar aún más la calidad de la imagen. En varios conjuntos de datos, el enfoque del sphere encoder produce un rendimiento competitivo con las difusiones de última generación, pero con una fracción mínima del coste de inferencia. La página del proyecto está disponible en https://sphere-encoder.github.io.
English
We introduce the Sphere Encoder, an efficient generative framework capable of producing images in a single forward pass and competing with many-step diffusion models using fewer than five steps. Our approach works by learning an encoder that maps natural images uniformly onto a spherical latent space, and a decoder that maps random latent vectors back to the image space. Trained solely through image reconstruction losses, the model generates an image by simply decoding a random point on the sphere. Our architecture naturally supports conditional generation, and looping the encoder/decoder a few times can further enhance image quality. Across several datasets, the sphere encoder approach yields performance competitive with state of the art diffusions, but with a small fraction of the inference cost. Project page is available at https://sphere-encoder.github.io .
PDF113February 27, 2026