Reutilização de Modelos Fundamentais Geométricos para Difusão Multi-visão

Resumo

Embora os avanços recentes em espaços latentes generativos tenham impulsionado progressos substanciais na geração de imagens únicas, o espaço latente ideal para a síntese de novas vistas (NVS) permanece amplamente inexplorado. Em particular, a NVS requer uma geração geometricamente consistente entre diferentes pontos de vista, mas as abordagens existentes normalmente operam em um espaço latente VAE independente da vista. Neste artigo, propomos a Difusão Latente Geométrica (GLD), uma estrutura que reaproveita o espaço de características geometricamente consistente de modelos de base geométrica como o espaço latente para difusão multi-vista. Demonstramos que essas características não apenas suportam a reconstrução RGB de alta fidelidade, mas também codificam fortes correspondências geométricas entre vistas, fornecendo um espaço latente bem adequado para a NVS. Nossos experimentos demonstram que o GLD supera tanto o VAE quanto o RAE em métricas de qualidade de imagem 2D e consistência 3D, enquanto acelera o treinamento em mais de 4,4x em comparação com o espaço latente VAE. Notavelmente, o GLD mantém-se competitivo com os métodos state-of-the-art que aproveitam o pré-treinamento em larga escala de texto para imagem, apesar de treinar seu modelo de difusão do zero sem esse pré-treinamento generativo.

English

While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.

Reutilização de Modelos Fundamentais Geométricos para Difusão Multi-visão

Repurposing Geometric Foundation Models for Multi-view Diffusion

Resumo

Support