ChatPaper.aiChatPaper

Diffusion360: Бесшовная генерация 360-градусных панорамных изображений на основе диффузионных моделей

Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models

November 22, 2023
Авторы: Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie
cs.AI

Аннотация

Это технический отчет о задаче генерации 360-градусных панорамных изображений на основе диффузионных моделей. В отличие от обычных 2D-изображений, 360-градусные панорамные изображения охватывают все поле зрения 360° × 180°. Таким образом, правая и левая стороны 360-градусного панорамного изображения должны быть непрерывными, что является основной проблемой в этой области. Однако текущий диффузионный конвейер не подходит для генерации таких бесшовных 360-градусных панорамных изображений. Для решения этой задачи мы предлагаем стратегию кругового смешивания на этапах как шумоподавления, так и декодирования VAE для обеспечения геометрической непрерывности. На основе этого мы представляем две модели для задач Text-to-360-panoramas и Single-Image-to-360-panoramas. Код был выпущен как проект с открытым исходным кодом на https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} и https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.
English
This is a technical report on the 360-degree panoramic image generation task based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic images capture the entire 360^circtimes 180^circ field of view. So the rightmost and the leftmost sides of the 360 panoramic image should be continued, which is the main challenge in this field. However, the current diffusion pipeline is not appropriate for generating such a seamless 360-degree panoramic image. To this end, we propose a circular blending strategy on both the denoising and VAE decoding stages to maintain the geometry continuity. Based on this, we present two models for Text-to-360-panoramas and Single-Image-to-360-panoramas tasks. The code has been released as an open-source project at https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} and https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}
PDF164December 15, 2024