ChatPaper.aiChatPaper

Генерация изображений с помощью сферического энкодера

Image Generation with a Sphere Encoder

February 16, 2026
Авторы: Kaiyu Yue, Menglin Jia, Ji Hou, Tom Goldstein
cs.AI

Аннотация

Мы представляем Sphere Encoder — эффективную генеративную архитектуру, способную создавать изображения за один прямой проход и конкурирующую с многошаговыми диффузионными моделями, используя менее пяти шагов. Наш подход заключается в обучении энкодера, который равномерно отображает натуральные изображения на сферическое латентное пространство, и декодера, который преобразует случайные латентные векторы обратно в пространство изображений. Модель, обученная исключительно на задачах реконструкции изображений, генерирует изображение простым декодированием случайной точки на сфере. Наша архитектура естественным образом поддерживает условную генерацию, а несколько итераций энкодера и декодера могут дополнительно улучшить качество изображения. На нескольких наборах данных подход со сферическим энкодером демонстрирует результаты, сопоставимые с современными диффузионными моделями, но при значительно меньших вычислительных затратах на вывод. Страница проекта доступна по адресу https://sphere-encoder.github.io.
English
We introduce the Sphere Encoder, an efficient generative framework capable of producing images in a single forward pass and competing with many-step diffusion models using fewer than five steps. Our approach works by learning an encoder that maps natural images uniformly onto a spherical latent space, and a decoder that maps random latent vectors back to the image space. Trained solely through image reconstruction losses, the model generates an image by simply decoding a random point on the sphere. Our architecture naturally supports conditional generation, and looping the encoder/decoder a few times can further enhance image quality. Across several datasets, the sphere encoder approach yields performance competitive with state of the art diffusions, but with a small fraction of the inference cost. Project page is available at https://sphere-encoder.github.io .
PDF113February 27, 2026