VGGT-X : Quand VGGT rencontre la synthèse dense de nouvelles vues
VGGT-X: When VGGT Meets Dense Novel View Synthesis
September 29, 2025
papers.authors: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI
papers.abstract
Nous étudions le problème de l'application des modèles de fondation 3D (3DFMs) à la synthèse dense de nouvelles vues (NVS). Malgré des progrès significatifs dans la synthèse de nouvelles vues alimentée par NeRF et 3DGS, les approches actuelles restent dépendantes d'attributs 3D précis (par exemple, les poses de caméra et les nuages de points) acquis à partir de la Structure-from-Motion (SfM), qui est souvent lente et fragile dans les captures à faible texture ou faible chevauchement. Les récents 3DFMs montrent une accélération de plusieurs ordres de grandeur par rapport au pipeline traditionnel et un grand potentiel pour la NVS en ligne. Mais la plupart des validations et conclusions sont limitées à des configurations de vues éparses. Notre étude révèle que la mise à l'échelle naïve des 3DFMs à des vues denses rencontre deux barrières fondamentales : une augmentation dramatique de la charge en VRAM et des sorties imparfaites qui dégradent l'entraînement 3D sensible à l'initialisation. Pour surmonter ces barrières, nous introduisons VGGT-X, incorporant une implémentation de VGGT économe en mémoire qui s'adapte à plus de 1 000 images, un alignement global adaptatif pour l'amélioration des sorties de VGGT, et des pratiques robustes d'entraînement 3DGS. Des expériences approfondies montrent que ces mesures réduisent considérablement l'écart de fidélité avec les pipelines initialisés par COLMAP, atteignant des résultats de pointe dans la NVS dense sans COLMAP et l'estimation de pose. De plus, nous analysons les causes des écarts restants avec le rendu initialisé par COLMAP, fournissant des insights pour le développement futur des modèles de fondation 3D et de la NVS dense. Notre page de projet est disponible à l'adresse https://dekuliutesla.github.io/vggt-x.github.io/
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel
View Synthesis (NVS). Despite significant progress in Novel View Synthesis
powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D
attributes (e.g., camera poses and point clouds) acquired from
Structure-from-Motion (SfM), which is often slow and fragile in low-texture or
low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over
the traditional pipeline and great potential for online NVS. But most of the
validation and conclusions are confined to sparse-view settings. Our study
reveals that naively scaling 3DFMs to dense views encounters two fundamental
barriers: dramatically increasing VRAM burden and imperfect outputs that
degrade initialization-sensitive 3D training. To address these barriers, we
introduce VGGT-X, incorporating a memory-efficient VGGT implementation that
scales to 1,000+ images, an adaptive global alignment for VGGT output
enhancement, and robust 3DGS training practices. Extensive experiments show
that these measures substantially close the fidelity gap with
COLMAP-initialized pipelines, achieving state-of-the-art results in dense
COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of
remaining gaps with COLMAP-initialized rendering, providing insights for the
future development of 3D foundation models and dense NVS. Our project page is
available at https://dekuliutesla.github.io/vggt-x.github.io/