Was macht die Text-zu-360-Grad-Panorama-Generierung mit Stable Diffusion aus?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
May 28, 2025
Autoren: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang
cs.AI
Zusammenfassung
Der jüngste Erfolg von Text-zu-Bild-Diffusionsmodellen, wie z.B. Stable Diffusion, hat die Forschung angeregt, diese für die Erzeugung von 360-Grad-Panoramen anzupassen. Frühere Arbeiten haben die Machbarkeit der Verwendung konventioneller Low-Rank-Adaptationstechniken auf vortrainierten Diffusionsmodellen zur Generierung von Panoramabildern demonstriert. Die erhebliche Domänenlücke zwischen perspektivischen und panoramischen Bildern wirft jedoch Fragen zu den zugrunde liegenden Mechanismen auf, die diesen empirischen Erfolg ermöglichen. Wir stellen die Hypothese auf und untersuchen, dass die trainierbaren Komponenten unterschiedliche Verhaltensweisen zeigen, wenn sie auf Panoramadaten feinabgestimmt werden, und dass eine solche Anpassung einen intrinsischen Mechanismus verbirgt, um das Vorwissen innerhalb der vortrainierten Diffusionsmodelle zu nutzen. Unsere Analyse zeigt Folgendes: 1) Die Query- und Key-Matrizen in den Aufmerksamkeitsmodulen sind für gemeinsame Informationen verantwortlich, die zwischen den Panorama- und Perspektivdomänen geteilt werden können und daher weniger relevant für die Panoramaerzeugung sind; und 2) die Value- und Output-Gewichtsmatrizen spezialisieren sich darauf, das vortrainierte Wissen an die Panoramadomäne anzupassen, und spielen eine entscheidendere Rolle während der Feinabstimmung für die Panoramaerzeugung. Wir überprüfen diese Erkenntnisse empirisch durch die Einführung eines einfachen Frameworks namens UniPano, mit dem Ziel, eine elegante Basis für zukünftige Forschung zu schaffen. UniPano übertrifft nicht nur bestehende Methoden, sondern reduziert auch den Speicherverbrauch und die Trainingszeit im Vergleich zu früheren Dual-Branch-Ansätzen erheblich, was es skalierbar für die end-to-end-Panoramaerzeugung mit höherer Auflösung macht. Der Code wird veröffentlicht.
English
Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion,
has stimulated research to adapt them to 360-degree panorama generation. Prior
work has demonstrated the feasibility of using conventional low-rank adaptation
techniques on pre-trained diffusion models to generate panoramic images.
However, the substantial domain gap between perspective and panoramic images
raises questions about the underlying mechanisms enabling this empirical
success. We hypothesize and examine that the trainable counterparts exhibit
distinct behaviors when fine-tuned on panoramic data, and such an adaptation
conceals some intrinsic mechanism to leverage the prior knowledge within the
pre-trained diffusion models. Our analysis reveals the following: 1) the query
and key matrices in the attention modules are responsible for common
information that can be shared between the panoramic and perspective domains,
thus are less relevant to panorama generation; and 2) the value and output
weight matrices specialize in adapting pre-trained knowledge to the panoramic
domain, playing a more critical role during fine-tuning for panorama
generation. We empirically verify these insights by introducing a simple
framework called UniPano, with the objective of establishing an elegant
baseline for future research. UniPano not only outperforms existing methods but
also significantly reduces memory usage and training time compared to prior
dual-branch approaches, making it scalable for end-to-end panorama generation
with higher resolution. The code will be released.Summary
AI-Generated Summary