O Que É Necessário para a Geração de Panoramas 360 Graus a Partir de Texto com Difusão Estável?

Resumo

O recente sucesso dos modelos de difusão de texto para imagem, como o Stable Diffusion, tem estimulado pesquisas para adaptá-los à geração de panoramas de 360 graus. Trabalhos anteriores demonstraram a viabilidade de usar técnicas convencionais de adaptação de baixo rank em modelos de difusão pré-treinados para gerar imagens panorâmicas. No entanto, a grande diferença de domínio entre imagens perspectivas e panorâmicas levanta questões sobre os mecanismos subjacentes que permitem esse sucesso empírico. Nós hipotetizamos e examinamos que as contrapartes treináveis exibem comportamentos distintos quando ajustadas em dados panorâmicos, e que tal adaptação oculta algum mecanismo intrínseco para aproveitar o conhecimento prévio dentro dos modelos de difusão pré-treinados. Nossa análise revela o seguinte: 1) as matrizes de consulta e chave nos módulos de atenção são responsáveis por informações comuns que podem ser compartilhadas entre os domínios panorâmico e perspectivo, sendo, portanto, menos relevantes para a geração de panoramas; e 2) as matrizes de valor e de peso de saída especializam-se em adaptar o conhecimento pré-treinado ao domínio panorâmico, desempenhando um papel mais crítico durante o ajuste fino para a geração de panoramas. Verificamos empiricamente essas percepções introduzindo uma estrutura simples chamada UniPano, com o objetivo de estabelecer uma linha de base elegante para pesquisas futuras. O UniPano não apenas supera os métodos existentes, mas também reduz significativamente o uso de memória e o tempo de treinamento em comparação com abordagens de ramificação dupla anteriores, tornando-o escalável para a geração de panoramas de alta resolução de ponta a ponta. O código será liberado.

English

Recent prosperity of text-to-image diffusion models, e.g. Stable Diffusion, has stimulated research to adapt them to 360-degree panorama generation. Prior work has demonstrated the feasibility of using conventional low-rank adaptation techniques on pre-trained diffusion models to generate panoramic images. However, the substantial domain gap between perspective and panoramic images raises questions about the underlying mechanisms enabling this empirical success. We hypothesize and examine that the trainable counterparts exhibit distinct behaviors when fine-tuned on panoramic data, and such an adaptation conceals some intrinsic mechanism to leverage the prior knowledge within the pre-trained diffusion models. Our analysis reveals the following: 1) the query and key matrices in the attention modules are responsible for common information that can be shared between the panoramic and perspective domains, thus are less relevant to panorama generation; and 2) the value and output weight matrices specialize in adapting pre-trained knowledge to the panoramic domain, playing a more critical role during fine-tuning for panorama generation. We empirically verify these insights by introducing a simple framework called UniPano, with the objective of establishing an elegant baseline for future research. UniPano not only outperforms existing methods but also significantly reduces memory usage and training time compared to prior dual-branch approaches, making it scalable for end-to-end panorama generation with higher resolution. The code will be released.

O Que É Necessário para a Geração de Panoramas 360 Graus a Partir de Texto com Difusão Estável?

What Makes for Text to 360-degree Panorama Generation with Stable Diffusion?

Resumo

Support