Cosa Serve per la Generazione di Testo in Panorami a 360 Gradi con Stable Diffusion?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
May 28, 2025
Autori: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang
cs.AI
Abstract
La recente prosperità dei modelli di diffusione testo-immagine, come Stable Diffusion, ha stimolato la ricerca per adattarli alla generazione di panorami a 360 gradi. Studi precedenti hanno dimostrato la fattibilità di utilizzare tecniche convenzionali di adattamento a basso rango su modelli di diffusione pre-addestrati per generare immagini panoramiche. Tuttavia, il notevole divario di dominio tra immagini prospettiche e panoramiche solleva interrogativi sui meccanismi sottostanti che consentono questo successo empirico. Ipotesi e analisi suggeriscono che le controparti addestrabili mostrano comportamenti distinti quando vengono perfezionate su dati panoramici, e tale adattamento nasconde alcuni meccanismi intrinseci per sfruttare la conoscenza pregressa all'interno dei modelli di diffusione pre-addestrati. La nostra analisi rivela quanto segue: 1) le matrici di query e chiave nei moduli di attenzione sono responsabili di informazioni comuni che possono essere condivise tra i domini panoramico e prospettico, risultando quindi meno rilevanti per la generazione di panorami; e 2) le matrici di valore e di peso dell'output si specializzano nell'adattare la conoscenza pre-addestrata al dominio panoramico, svolgendo un ruolo più critico durante il perfezionamento per la generazione di panorami. Verifichiamo empiricamente queste intuizioni introducendo un semplice framework chiamato UniPano, con l'obiettivo di stabilire una linea di base elegante per la ricerca futura. UniPano non solo supera i metodi esistenti, ma riduce significativamente l'uso della memoria e il tempo di addestramento rispetto agli approcci a doppio ramo precedenti, rendendolo scalabile per la generazione end-to-end di panorami con risoluzione più elevata. Il codice verrà rilasciato.
English
Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion,
has stimulated research to adapt them to 360-degree panorama generation. Prior
work has demonstrated the feasibility of using conventional low-rank adaptation
techniques on pre-trained diffusion models to generate panoramic images.
However, the substantial domain gap between perspective and panoramic images
raises questions about the underlying mechanisms enabling this empirical
success. We hypothesize and examine that the trainable counterparts exhibit
distinct behaviors when fine-tuned on panoramic data, and such an adaptation
conceals some intrinsic mechanism to leverage the prior knowledge within the
pre-trained diffusion models. Our analysis reveals the following: 1) the query
and key matrices in the attention modules are responsible for common
information that can be shared between the panoramic and perspective domains,
thus are less relevant to panorama generation; and 2) the value and output
weight matrices specialize in adapting pre-trained knowledge to the panoramic
domain, playing a more critical role during fine-tuning for panorama
generation. We empirically verify these insights by introducing a simple
framework called UniPano, with the objective of establishing an elegant
baseline for future research. UniPano not only outperforms existing methods but
also significantly reduces memory usage and training time compared to prior
dual-branch approaches, making it scalable for end-to-end panorama generation
with higher resolution. The code will be released.