ChatPaper.aiChatPaper

Diffusion360: Nahtlose 360-Grad-Panoramabildgenerierung basierend auf Diffusionsmodellen

Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models

November 22, 2023
Autoren: Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie
cs.AI

Zusammenfassung

Dies ist ein technischer Bericht über die Aufgabe der 360-Grad-Panoramabildgenerierung basierend auf Diffusionsmodellen. Im Gegensatz zu gewöhnlichen 2D-Bildern erfassen 360-Grad-Panoramabilder das gesamte Sichtfeld von 360° × 180°. Daher sollten die äußerste rechte und linke Seite des 360-Grad-Panoramabildes nahtlos fortgesetzt werden, was die Hauptherausforderung in diesem Bereich darstellt. Derzeit ist die Diffusionspipeline jedoch nicht geeignet, um ein solches nahtloses 360-Grad-Panoramabild zu erzeugen. Zu diesem Zweck schlagen wir eine zirkuläre Blending-Strategie sowohl in der Denoising- als auch in der VAE-Decodierungsphase vor, um die geometrische Kontinuität zu gewährleisten. Basierend darauf präsentieren wir zwei Modelle für die Aufgaben Text-zu-360-Panorama und Einzelbild-zu-360-Panorama. Der Code wurde als Open-Source-Projekt unter https://github.com/ArcherFMY/SD-T2I-360PanoImage und https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary veröffentlicht.
English
This is a technical report on the 360-degree panoramic image generation task based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic images capture the entire 360^circtimes 180^circ field of view. So the rightmost and the leftmost sides of the 360 panoramic image should be continued, which is the main challenge in this field. However, the current diffusion pipeline is not appropriate for generating such a seamless 360-degree panoramic image. To this end, we propose a circular blending strategy on both the denoising and VAE decoding stages to maintain the geometry continuity. Based on this, we present two models for Text-to-360-panoramas and Single-Image-to-360-panoramas tasks. The code has been released as an open-source project at https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} and https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}
PDF164December 15, 2024