ChatPaper.aiChatPaper

安定拡散を用いたテキストから360度パノラマ生成を実現する要素とは何か?

What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

May 28, 2025
著者: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang
cs.AI

要旨

近年、Stable Diffusionに代表されるテキストから画像を生成する拡散モデルの隆盛は、360度パノラマ生成への適応研究を刺激してきた。先行研究では、事前学習済みの拡散モデルに対して従来の低ランク適応技術を用いることで、パノラマ画像を生成する可能性が示されている。しかし、透視投影画像とパノラマ画像の間には大きな領域ギャップが存在し、この経験的な成功を可能にする根本的なメカニズムについて疑問が提起されている。本研究では、学習可能なパラメータがパノラマデータに微調整された際に異なる振る舞いを示し、その適応が事前学習済み拡散モデル内の事前知識を活用する何らかの内在的メカニズムを隠蔽しているという仮説を検証する。分析の結果、以下のことが明らかになった:1)注意機構におけるクエリ行列とキー行列は、パノラマ領域と透視投影領域の間で共有可能な共通情報を担っており、パノラマ生成にはあまり関連がないこと、2)バリュー行列と出力重み行列は、事前学習済みの知識をパノラマ領域に適応させることに特化しており、パノラマ生成のための微調整においてより重要な役割を果たすこと。これらの知見を実証するため、UniPanoと呼ばれるシンプルなフレームワークを提案し、将来の研究のための優れたベースラインを確立することを目指す。UniPanoは既存の手法を凌駕するだけでなく、従来のデュアルブランチアプローチと比較してメモリ使用量と学習時間を大幅に削減し、高解像度でのエンドツーエンドのパノラマ生成をスケーラブルに実現する。コードは公開予定である。
English
Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion, has stimulated research to adapt them to 360-degree panorama generation. Prior work has demonstrated the feasibility of using conventional low-rank adaptation techniques on pre-trained diffusion models to generate panoramic images. However, the substantial domain gap between perspective and panoramic images raises questions about the underlying mechanisms enabling this empirical success. We hypothesize and examine that the trainable counterparts exhibit distinct behaviors when fine-tuned on panoramic data, and such an adaptation conceals some intrinsic mechanism to leverage the prior knowledge within the pre-trained diffusion models. Our analysis reveals the following: 1) the query and key matrices in the attention modules are responsible for common information that can be shared between the panoramic and perspective domains, thus are less relevant to panorama generation; and 2) the value and output weight matrices specialize in adapting pre-trained knowledge to the panoramic domain, playing a more critical role during fine-tuning for panorama generation. We empirically verify these insights by introducing a simple framework called UniPano, with the objective of establishing an elegant baseline for future research. UniPano not only outperforms existing methods but also significantly reduces memory usage and training time compared to prior dual-branch approaches, making it scalable for end-to-end panorama generation with higher resolution. The code will be released.

Summary

AI-Generated Summary

PDF152May 29, 2025