Cosa Serve per la Generazione di Testo in Panorami a 360 Gradi con Stable Diffusion?

Abstract

La recente prosperità dei modelli di diffusione testo-immagine, come Stable Diffusion, ha stimolato la ricerca per adattarli alla generazione di panorami a 360 gradi. Studi precedenti hanno dimostrato la fattibilità di utilizzare tecniche convenzionali di adattamento a basso rango su modelli di diffusione pre-addestrati per generare immagini panoramiche. Tuttavia, il notevole divario di dominio tra immagini prospettiche e panoramiche solleva interrogativi sui meccanismi sottostanti che consentono questo successo empirico. Ipotesi e analisi suggeriscono che le controparti addestrabili mostrano comportamenti distinti quando vengono perfezionate su dati panoramici, e tale adattamento nasconde alcuni meccanismi intrinseci per sfruttare la conoscenza pregressa all'interno dei modelli di diffusione pre-addestrati. La nostra analisi rivela quanto segue: 1) le matrici di query e chiave nei moduli di attenzione sono responsabili di informazioni comuni che possono essere condivise tra i domini panoramico e prospettico, risultando quindi meno rilevanti per la generazione di panorami; e 2) le matrici di valore e di peso dell'output si specializzano nell'adattare la conoscenza pre-addestrata al dominio panoramico, svolgendo un ruolo più critico durante il perfezionamento per la generazione di panorami. Verifichiamo empiricamente queste intuizioni introducendo un semplice framework chiamato UniPano, con l'obiettivo di stabilire una linea di base elegante per la ricerca futura. UniPano non solo supera i metodi esistenti, ma riduce significativamente l'uso della memoria e il tempo di addestramento rispetto agli approcci a doppio ramo precedenti, rendendolo scalabile per la generazione end-to-end di panorami con risoluzione più elevata. Il codice verrà rilasciato.

English

Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion, has stimulated research to adapt them to 360-degree panorama generation. Prior work has demonstrated the feasibility of using conventional low-rank adaptation techniques on pre-trained diffusion models to generate panoramic images. However, the substantial domain gap between perspective and panoramic images raises questions about the underlying mechanisms enabling this empirical success. We hypothesize and examine that the trainable counterparts exhibit distinct behaviors when fine-tuned on panoramic data, and such an adaptation conceals some intrinsic mechanism to leverage the prior knowledge within the pre-trained diffusion models. Our analysis reveals the following: 1) the query and key matrices in the attention modules are responsible for common information that can be shared between the panoramic and perspective domains, thus are less relevant to panorama generation; and 2) the value and output weight matrices specialize in adapting pre-trained knowledge to the panoramic domain, playing a more critical role during fine-tuning for panorama generation. We empirically verify these insights by introducing a simple framework called UniPano, with the objective of establishing an elegant baseline for future research. UniPano not only outperforms existing methods but also significantly reduces memory usage and training time compared to prior dual-branch approaches, making it scalable for end-to-end panorama generation with higher resolution. The code will be released.

Cosa Serve per la Generazione di Testo in Panorami a 360 Gradi con Stable Diffusion?

What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

Abstract

Support