O Que É Necessário para a Geração de Panoramas 360 Graus a Partir de Texto com Difusão Estável?
What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?
May 28, 2025
Autores: Jinhong Ni, Chang-Bin Zhang, Qiang Zhang, Jing Zhang
cs.AI
Resumo
O recente sucesso dos modelos de difusão de texto para imagem, como o Stable Diffusion, tem estimulado pesquisas para adaptá-los à geração de panoramas de 360 graus. Trabalhos anteriores demonstraram a viabilidade de usar técnicas convencionais de adaptação de baixo rank em modelos de difusão pré-treinados para gerar imagens panorâmicas. No entanto, a grande diferença de domínio entre imagens perspectivas e panorâmicas levanta questões sobre os mecanismos subjacentes que permitem esse sucesso empírico. Nós hipotetizamos e examinamos que as contrapartes treináveis exibem comportamentos distintos quando ajustadas em dados panorâmicos, e que tal adaptação oculta algum mecanismo intrínseco para aproveitar o conhecimento prévio dentro dos modelos de difusão pré-treinados. Nossa análise revela o seguinte: 1) as matrizes de consulta e chave nos módulos de atenção são responsáveis por informações comuns que podem ser compartilhadas entre os domínios panorâmico e perspectivo, sendo, portanto, menos relevantes para a geração de panoramas; e 2) as matrizes de valor e de peso de saída especializam-se em adaptar o conhecimento pré-treinado ao domínio panorâmico, desempenhando um papel mais crítico durante o ajuste fino para a geração de panoramas. Verificamos empiricamente essas percepções introduzindo uma estrutura simples chamada UniPano, com o objetivo de estabelecer uma linha de base elegante para pesquisas futuras. O UniPano não apenas supera os métodos existentes, mas também reduz significativamente o uso de memória e o tempo de treinamento em comparação com abordagens de ramificação dupla anteriores, tornando-o escalável para a geração de panoramas de alta resolução de ponta a ponta. O código será liberado.
English
Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion,
has stimulated research to adapt them to 360-degree panorama generation. Prior
work has demonstrated the feasibility of using conventional low-rank adaptation
techniques on pre-trained diffusion models to generate panoramic images.
However, the substantial domain gap between perspective and panoramic images
raises questions about the underlying mechanisms enabling this empirical
success. We hypothesize and examine that the trainable counterparts exhibit
distinct behaviors when fine-tuned on panoramic data, and such an adaptation
conceals some intrinsic mechanism to leverage the prior knowledge within the
pre-trained diffusion models. Our analysis reveals the following: 1) the query
and key matrices in the attention modules are responsible for common
information that can be shared between the panoramic and perspective domains,
thus are less relevant to panorama generation; and 2) the value and output
weight matrices specialize in adapting pre-trained knowledge to the panoramic
domain, playing a more critical role during fine-tuning for panorama
generation. We empirically verify these insights by introducing a simple
framework called UniPano, with the objective of establishing an elegant
baseline for future research. UniPano not only outperforms existing methods but
also significantly reduces memory usage and training time compared to prior
dual-branch approaches, making it scalable for end-to-end panorama generation
with higher resolution. The code will be released.