¿Qué se necesita para la generación de texto a panoramas de 360 grados con Stable Diffusion?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
May 28, 2025
Autores: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang
cs.AI
Resumen
El reciente auge de los modelos de difusión de texto a imagen, como Stable Diffusion, ha impulsado la investigación para adaptarlos a la generación de panoramas de 360 grados. Trabajos previos han demostrado la viabilidad de utilizar técnicas convencionales de adaptación de bajo rango en modelos de difusión preentrenados para generar imágenes panorámicas. Sin embargo, la considerable brecha de dominio entre las imágenes en perspectiva y las panorámicas plantea interrogantes sobre los mecanismos subyacentes que permiten este éxito empírico. Planteamos y examinamos la hipótesis de que las contrapartes entrenables exhiben comportamientos distintos cuando se ajustan con datos panorámicos, y que dicha adaptación oculta algún mecanismo intrínseco para aprovechar el conocimiento previo dentro de los modelos de difusión preentrenados. Nuestro análisis revela lo siguiente: 1) las matrices de consulta y clave en los módulos de atención son responsables de la información común que puede compartirse entre los dominios panorámico y en perspectiva, por lo que son menos relevantes para la generación de panoramas; y 2) las matrices de valor y de ponderación de salida se especializan en adaptar el conocimiento preentrenado al dominio panorámico, desempeñando un papel más crítico durante el ajuste fino para la generación de panoramas. Verificamos empíricamente estas ideas mediante la introducción de un marco simple llamado UniPano, con el objetivo de establecer una línea base elegante para futuras investigaciones. UniPano no solo supera a los métodos existentes, sino que también reduce significativamente el uso de memoria y el tiempo de entrenamiento en comparación con enfoques previos de doble rama, lo que lo hace escalable para la generación de panoramas de extremo a extremo con mayor resolución. El código será publicado.
English
Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion,
has stimulated research to adapt them to 360-degree panorama generation. Prior
work has demonstrated the feasibility of using conventional low-rank adaptation
techniques on pre-trained diffusion models to generate panoramic images.
However, the substantial domain gap between perspective and panoramic images
raises questions about the underlying mechanisms enabling this empirical
success. We hypothesize and examine that the trainable counterparts exhibit
distinct behaviors when fine-tuned on panoramic data, and such an adaptation
conceals some intrinsic mechanism to leverage the prior knowledge within the
pre-trained diffusion models. Our analysis reveals the following: 1) the query
and key matrices in the attention modules are responsible for common
information that can be shared between the panoramic and perspective domains,
thus are less relevant to panorama generation; and 2) the value and output
weight matrices specialize in adapting pre-trained knowledge to the panoramic
domain, playing a more critical role during fine-tuning for panorama
generation. We empirically verify these insights by introducing a simple
framework called UniPano, with the objective of establishing an elegant
baseline for future research. UniPano not only outperforms existing methods but
also significantly reduces memory usage and training time compared to prior
dual-branch approaches, making it scalable for end-to-end panorama generation
with higher resolution. The code will be released.Summary
AI-Generated Summary