Diffusion360: Nahtlose 360-Grad-Panoramabildgenerierung basierend auf Diffusionsmodellen
Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models
November 22, 2023
Autoren: Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie
cs.AI
Zusammenfassung
Dies ist ein technischer Bericht über die Aufgabe der 360-Grad-Panoramabildgenerierung basierend auf Diffusionsmodellen. Im Gegensatz zu gewöhnlichen 2D-Bildern erfassen 360-Grad-Panoramabilder das gesamte Sichtfeld von 360° × 180°. Daher sollten die äußerste rechte und linke Seite des 360-Grad-Panoramabildes nahtlos fortgesetzt werden, was die Hauptherausforderung in diesem Bereich darstellt. Derzeit ist die Diffusionspipeline jedoch nicht geeignet, um ein solches nahtloses 360-Grad-Panoramabild zu erzeugen. Zu diesem Zweck schlagen wir eine zirkuläre Blending-Strategie sowohl in der Denoising- als auch in der VAE-Decodierungsphase vor, um die geometrische Kontinuität zu gewährleisten. Basierend darauf präsentieren wir zwei Modelle für die Aufgaben Text-zu-360-Panorama und Einzelbild-zu-360-Panorama. Der Code wurde als Open-Source-Projekt unter
https://github.com/ArcherFMY/SD-T2I-360PanoImage
und
https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary
veröffentlicht.
English
This is a technical report on the 360-degree panoramic image generation task
based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic
images capture the entire 360^circtimes 180^circ field of view. So the
rightmost and the leftmost sides of the 360 panoramic image should be
continued, which is the main challenge in this field. However, the current
diffusion pipeline is not appropriate for generating such a seamless 360-degree
panoramic image. To this end, we propose a circular blending strategy on both
the denoising and VAE decoding stages to maintain the geometry continuity.
Based on this, we present two models for Text-to-360-panoramas and
Single-Image-to-360-panoramas tasks. The code has been released as an
open-source project at
https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage}
and
https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}