¿Qué se necesita para la generación de texto a panoramas de 360 grados con Stable Diffusion?

Resumen

El reciente auge de los modelos de difusión de texto a imagen, como Stable Diffusion, ha impulsado la investigación para adaptarlos a la generación de panoramas de 360 grados. Trabajos previos han demostrado la viabilidad de utilizar técnicas convencionales de adaptación de bajo rango en modelos de difusión preentrenados para generar imágenes panorámicas. Sin embargo, la considerable brecha de dominio entre las imágenes en perspectiva y las panorámicas plantea interrogantes sobre los mecanismos subyacentes que permiten este éxito empírico. Planteamos y examinamos la hipótesis de que las contrapartes entrenables exhiben comportamientos distintos cuando se ajustan con datos panorámicos, y que dicha adaptación oculta algún mecanismo intrínseco para aprovechar el conocimiento previo dentro de los modelos de difusión preentrenados. Nuestro análisis revela lo siguiente: 1) las matrices de consulta y clave en los módulos de atención son responsables de la información común que puede compartirse entre los dominios panorámico y en perspectiva, por lo que son menos relevantes para la generación de panoramas; y 2) las matrices de valor y de ponderación de salida se especializan en adaptar el conocimiento preentrenado al dominio panorámico, desempeñando un papel más crítico durante el ajuste fino para la generación de panoramas. Verificamos empíricamente estas ideas mediante la introducción de un marco simple llamado UniPano, con el objetivo de establecer una línea base elegante para futuras investigaciones. UniPano no solo supera a los métodos existentes, sino que también reduce significativamente el uso de memoria y el tiempo de entrenamiento en comparación con enfoques previos de doble rama, lo que lo hace escalable para la generación de panoramas de extremo a extremo con mayor resolución. El código será publicado.

English

Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion, has stimulated research to adapt them to 360-degree panorama generation. Prior work has demonstrated the feasibility of using conventional low-rank adaptation techniques on pre-trained diffusion models to generate panoramic images. However, the substantial domain gap between perspective and panoramic images raises questions about the underlying mechanisms enabling this empirical success. We hypothesize and examine that the trainable counterparts exhibit distinct behaviors when fine-tuned on panoramic data, and such an adaptation conceals some intrinsic mechanism to leverage the prior knowledge within the pre-trained diffusion models. Our analysis reveals the following: 1) the query and key matrices in the attention modules are responsible for common information that can be shared between the panoramic and perspective domains, thus are less relevant to panorama generation; and 2) the value and output weight matrices specialize in adapting pre-trained knowledge to the panoramic domain, playing a more critical role during fine-tuning for panorama generation. We empirically verify these insights by introducing a simple framework called UniPano, with the objective of establishing an elegant baseline for future research. UniPano not only outperforms existing methods but also significantly reduces memory usage and training time compared to prior dual-branch approaches, making it scalable for end-to-end panorama generation with higher resolution. The code will be released.

¿Qué se necesita para la generación de texto a panoramas de 360 grados con Stable Diffusion?

What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

Resumen

Support