ChatPaper.aiChatPaper

Diffusion360 : Génération fluide d'images panoramiques à 360 degrés basée sur des modèles de diffusion

Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models

November 22, 2023
Auteurs: Mengyang Feng, Jinlin Liu, Miaomiao Cui, Xuansong Xie
cs.AI

Résumé

Ce rapport technique traite de la génération d'images panoramiques à 360 degrés basée sur les modèles de diffusion. Contrairement aux images 2D classiques, les images panoramiques à 360 degrés capturent un champ de vision complet de 360° × 180°. Ainsi, les côtés droit et gauche de l'image panoramique à 360 degrés doivent se rejoindre de manière continue, ce qui constitue le principal défi dans ce domaine. Cependant, le pipeline de diffusion actuel n'est pas adapté à la génération d'une telle image panoramique à 360 degrés sans couture. Pour résoudre ce problème, nous proposons une stratégie de fusion circulaire à la fois lors des étapes de débruitage et de décodage VAE afin de maintenir la continuité géométrique. Sur cette base, nous présentons deux modèles pour les tâches de génération de panoramas à 360 degrés à partir de texte (Text-to-360-panoramas) et à partir d'une seule image (Single-Image-to-360-panoramas). Le code a été publié en tant que projet open-source sur https://github.com/ArcherFMY/SD-T2I-360PanoImage et https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary (ModelScope).
English
This is a technical report on the 360-degree panoramic image generation task based on diffusion models. Unlike ordinary 2D images, 360-degree panoramic images capture the entire 360^circtimes 180^circ field of view. So the rightmost and the leftmost sides of the 360 panoramic image should be continued, which is the main challenge in this field. However, the current diffusion pipeline is not appropriate for generating such a seamless 360-degree panoramic image. To this end, we propose a circular blending strategy on both the denoising and VAE decoding stages to maintain the geometry continuity. Based on this, we present two models for Text-to-360-panoramas and Single-Image-to-360-panoramas tasks. The code has been released as an open-source project at https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} and https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}
PDF164December 15, 2024