Réutilisation des modèles de fondation géométriques pour la diffusion multi-vue
Repurposing Geometric Foundation Models for Multi-view Diffusion
March 23, 2026
Auteurs: Wooseok Jang, Seonghu Jeon, Jisang Han, Jinhyeok Choi, Minkyung Kwon, Seungryong Kim, Saining Xie, Sainan Liu
cs.AI
Résumé
Si les récents progrès dans les espaces latents génératifs ont permis des avancées significatives en génération d'image unique, l'espace latent optimal pour la synthèse de nouvelles vues (NVS) reste largement inexploré. En particulier, la NVS nécessite une génération géométriquement cohérente entre les points de vue, mais les approches existantes opèrent généralement dans un espace latent VAE indépendant de la vue. Dans cet article, nous proposons Geometric Latent Diffusion (GLD), un cadre qui réutilise l'espace de caractéristiques géométriquement cohérent des modèles fondationnels de vision géométrique comme espace latent pour la diffusion multi-vues. Nous montrons que ces caractéristiques permettent non seulement une reconstruction RVB de haute fidélité, mais encodent également de fortes correspondances géométriques inter-vues, fournissant un espace latent bien adapté à la NVS. Nos expériences démontrent que GLD surpasse à la fois le VAE et le RAE sur les métriques de qualité d'image 2D et de cohérence 3D, tout en accélérant l'entraînement par plus de 4,4x par rapport à l'espace latent VAE. Fait notable, GLD reste compétitif avec les méthodes de pointe qui exploitent un pré-entraînement massif texte-image, bien qu'il entraîne son modèle de diffusion à partir de zéro sans un tel pré-entraînement génératif.
English
While recent advances in generative latent spaces have driven substantial progress in single-image generation, the optimal latent space for novel view synthesis (NVS) remains largely unexplored. In particular, NVS requires geometrically consistent generation across viewpoints, but existing approaches typically operate in a view-independent VAE latent space. In this paper, we propose Geometric Latent Diffusion (GLD), a framework that repurposes the geometrically consistent feature space of geometric foundation models as the latent space for multi-view diffusion. We show that these features not only support high-fidelity RGB reconstruction but also encode strong cross-view geometric correspondences, providing a well-suited latent space for NVS. Our experiments demonstrate that GLD outperforms both VAE and RAE on 2D image quality and 3D consistency metrics, while accelerating training by more than 4.4x compared to the VAE latent space. Notably, GLD remains competitive with state-of-the-art methods that leverage large-scale text-to-image pretraining, despite training its diffusion model from scratch without such generative pretraining.