Qu'est-ce qui permet la génération de panoramas à 360 degrés à partir de texte avec Stable Diffusion ?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
May 28, 2025
Auteurs: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang
cs.AI
Résumé
Le récent essor des modèles de diffusion texte-image, tels que Stable Diffusion, a stimulé la recherche visant à les adapter à la génération de panoramas à 360 degrés. Les travaux antérieurs ont démontré la faisabilité d'utiliser des techniques conventionnelles d'adaptation à faible rang sur des modèles de diffusion pré-entraînés pour générer des images panoramiques. Cependant, l'écart de domaine substantiel entre les images en perspective et les images panoramiques soulève des questions sur les mécanismes sous-jacents permettant ce succès empirique. Nous émettons l'hypothèse et examinons que les composants entraînables présentent des comportements distincts lorsqu'ils sont affinés sur des données panoramiques, et qu'une telle adaptation masque un mécanisme intrinsèque permettant de tirer parti des connaissances préalables contenues dans les modèles de diffusion pré-entraînés. Notre analyse révèle les points suivants : 1) les matrices de requête et de clé dans les modules d'attention sont responsables des informations communes pouvant être partagées entre les domaines panoramique et en perspective, et sont donc moins pertinentes pour la génération de panoramas ; et 2) les matrices de valeur et de poids de sortie se spécialisent dans l'adaptation des connaissances pré-entraînées au domaine panoramique, jouant un rôle plus critique lors de l'affinage pour la génération de panoramas. Nous vérifions empiriquement ces insights en introduisant un cadre simple appelé UniPano, avec pour objectif d'établir une base élégante pour les recherches futures. UniPano surpasse non seulement les méthodes existantes, mais réduit également de manière significative l'utilisation de la mémoire et le temps d'entraînement par rapport aux approches à double branche précédentes, le rendant évolutif pour la génération de panoramas de bout en bout avec une résolution plus élevée. Le code sera publié.
English
Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion,
has stimulated research to adapt them to 360-degree panorama generation. Prior
work has demonstrated the feasibility of using conventional low-rank adaptation
techniques on pre-trained diffusion models to generate panoramic images.
However, the substantial domain gap between perspective and panoramic images
raises questions about the underlying mechanisms enabling this empirical
success. We hypothesize and examine that the trainable counterparts exhibit
distinct behaviors when fine-tuned on panoramic data, and such an adaptation
conceals some intrinsic mechanism to leverage the prior knowledge within the
pre-trained diffusion models. Our analysis reveals the following: 1) the query
and key matrices in the attention modules are responsible for common
information that can be shared between the panoramic and perspective domains,
thus are less relevant to panorama generation; and 2) the value and output
weight matrices specialize in adapting pre-trained knowledge to the panoramic
domain, playing a more critical role during fine-tuning for panorama
generation. We empirically verify these insights by introducing a simple
framework called UniPano, with the objective of establishing an elegant
baseline for future research. UniPano not only outperforms existing methods but
also significantly reduces memory usage and training time compared to prior
dual-branch approaches, making it scalable for end-to-end panorama generation
with higher resolution. The code will be released.Summary
AI-Generated Summary