VGGT-X: Wanneer VGGT Samenkomt met Dichte Nieuwe Beeldsynthese
VGGT-X: When VGGT Meets Dense Novel View Synthesis
September 29, 2025
Auteurs: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI
Samenvatting
We bestuderen het probleem van het toepassen van 3D Foundation Models (3DFMs) op dichte Novel View Synthesis (NVS). Ondanks aanzienlijke vooruitgang in Novel View Synthesis, aangedreven door NeRF en 3DGS, blijven huidige benaderingen afhankelijk van nauwkeurige 3D-attributen (bijv. cameraposities en puntenwolken) verkregen via Structure-from-Motion (SfM), wat vaak traag en kwetsbaar is bij opnames met weinig textuur of weinig overlap. Recente 3DFMs tonen een versnelling van meerdere ordes van grootte ten opzichte van de traditionele pijplijn en groot potentieel voor online NVS. Maar het meeste van de validatie en conclusies is beperkt tot sparse-view instellingen. Ons onderzoek toont aan dat het naïef opschalen van 3DFMs naar dichte views twee fundamentele barrières tegenkomt: een dramatisch toenemende VRAM-belasting en onvolmaakte uitvoer die de initialisatiegevoelige 3D-training verslechtert. Om deze barrières aan te pakken, introduceren we VGGT-X, dat een geheugenefficiënte VGGT-implementatie omvat die schaalt naar 1.000+ afbeeldingen, een adaptieve globale uitlijning voor VGGT-uitvoerverbetering en robuuste 3DGS-trainingspraktijken. Uitgebreide experimenten tonen aan dat deze maatregelen de kwaliteitskloof met COLMAP-geïnitialiseerde pijplijnen aanzienlijk verkleinen, wat resulteert in state-of-the-art resultaten in dichte COLMAP-vrije NVS en pose-estimatie. Daarnaast analyseren we de oorzaken van de resterende kloof met COLMAP-geïnitialiseerde rendering, wat inzichten biedt voor de toekomstige ontwikkeling van 3D foundation models en dichte NVS. Onze projectpagina is beschikbaar op https://dekuliutesla.github.io/vggt-x.github.io/.
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel
View Synthesis (NVS). Despite significant progress in Novel View Synthesis
powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D
attributes (e.g., camera poses and point clouds) acquired from
Structure-from-Motion (SfM), which is often slow and fragile in low-texture or
low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over
the traditional pipeline and great potential for online NVS. But most of the
validation and conclusions are confined to sparse-view settings. Our study
reveals that naively scaling 3DFMs to dense views encounters two fundamental
barriers: dramatically increasing VRAM burden and imperfect outputs that
degrade initialization-sensitive 3D training. To address these barriers, we
introduce VGGT-X, incorporating a memory-efficient VGGT implementation that
scales to 1,000+ images, an adaptive global alignment for VGGT output
enhancement, and robust 3DGS training practices. Extensive experiments show
that these measures substantially close the fidelity gap with
COLMAP-initialized pipelines, achieving state-of-the-art results in dense
COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of
remaining gaps with COLMAP-initialized rendering, providing insights for the
future development of 3D foundation models and dense NVS. Our project page is
available at https://dekuliutesla.github.io/vggt-x.github.io/