ChatPaper.aiChatPaper

Diffusion360: Generación de imágenes panorámicas de 360 grados sin fisuras basada en modelos de difusión

Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models

November 22, 2023
Autores: Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie
cs.AI

Resumen

Este es un informe técnico sobre la tarea de generación de imágenes panorámicas de 360 grados basada en modelos de difusión. A diferencia de las imágenes 2D convencionales, las imágenes panorámicas de 360 grados capturan un campo de visión completo de 360^circtimes 180^circ. Por lo tanto, los lados más a la derecha y a la izquierda de la imagen panorámica de 360 grados deben estar conectados, lo cual representa el principal desafío en este campo. Sin embargo, la pipeline de difusión actual no es adecuada para generar una imagen panorámica de 360 grados sin costuras. Para abordar este problema, proponemos una estrategia de mezcla circular en las etapas de eliminación de ruido y decodificación VAE para mantener la continuidad geométrica. Basándonos en esto, presentamos dos modelos para las tareas de Texto-a-Panorámicas-360 y Imagen-Única-a-Panorámicas-360. El código ha sido publicado como un proyecto de código abierto en https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} y https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.
English
This is a technical report on the 360-degree panoramic image generation task based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic images capture the entire 360^circtimes 180^circ field of view. So the rightmost and the leftmost sides of the 360 panoramic image should be continued, which is the main challenge in this field. However, the current diffusion pipeline is not appropriate for generating such a seamless 360-degree panoramic image. To this end, we propose a circular blending strategy on both the denoising and VAE decoding stages to maintain the geometry continuity. Based on this, we present two models for Text-to-360-panoramas and Single-Image-to-360-panoramas tasks. The code has been released as an open-source project at https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} and https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}
PDF164December 15, 2024