Reutilización de Modelos Fundamentales Geométricos para Difusión Multi-vista

Resumen

Si bien los avances recientes en espacios latentes generativos han impulsado un progreso sustancial en la generación de imágenes únicas, el espacio latente óptimo para la síntesis de nuevas vistas (NVS, por sus siglas en inglés) sigue estando en gran medida inexplorado. En particular, la NVS requiere una generación geométricamente consistente entre diferentes puntos de vista, pero los enfoques existentes suelen operar en un espacio latente VAE independiente de la vista. En este artículo, proponemos Geometric Latent Diffusion (GLD), un marco que readapta el espacio de características geométricamente consistente de los modelos fundacionales de geometría como espacio latente para la difusión multi-vista. Demostramos que estas características no solo permiten una reconstrucción RGB de alta fidelidad, sino que también codifican fuertes correspondencias geométricas cruzadas, proporcionando un espacio latente bien adaptado para la NVS. Nuestros experimentos demuestran que GLD supera tanto a VAE como a RAE en las métricas de calidad de imagen 2D y consistencia 3D, al mismo tiempo que acelera el entrenamiento en más de 4.4x en comparación con el espacio latente VAE. Cabe destacar que GLD se mantiene competitivo con los métodos de vanguardia que aprovechan el preentrenamiento a gran escala de texto a imagen, a pesar de entrenar su modelo de difusión desde cero sin dicho preentrenamiento generativo.

English

While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.

Reutilización de Modelos Fundamentales Geométricos para Difusión Multi-vista

Repurposing Geometric Foundation Models for Multi-view Diffusion

Resumen

Support