VGGT-X: Quando VGGT Incontra la Sintesi Densa di Nuove Visuali
VGGT-X: When VGGT Meets Dense Novel View Synthesis
September 29, 2025
Autori: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI
Abstract
Studiamo il problema dell'applicazione dei Modelli Fondamentali 3D (3DFMs) alla sintesi densa di nuove viste (NVS). Nonostante i significativi progressi nella sintesi di nuove viste alimentata da NeRF e 3DGS, gli approcci attuali rimangono dipendenti da attributi 3D accurati (ad esempio, pose della fotocamera e nuvole di punti) acquisiti tramite Structure-from-Motion (SfM), che è spesso lento e fragile in catture con bassa texture o bassa sovrapposizione. I recenti 3DFMs dimostrano un'accelerazione di ordini di grandezza rispetto alla pipeline tradizionale e un grande potenziale per la NVS online. Tuttavia, la maggior parte delle validazioni e delle conclusioni è limitata a impostazioni con viste sparse. Il nostro studio rivela che scalare semplicemente i 3DFMs a viste dense incontra due barriere fondamentali: un carico di VRAM che aumenta drasticamente e output imperfetti che degradano l'addestramento 3D sensibile all'inizializzazione. Per affrontare queste barriere, introduciamo VGGT-X, che incorpora un'implementazione efficiente in termini di memoria di VGGT in grado di scalare a oltre 1.000 immagini, un allineamento globale adattivo per il miglioramento dell'output di VGGT e pratiche robuste di addestramento 3DGS. Esperimenti estesi dimostrano che queste misure riducono sostanzialmente il divario di fedeltà con le pipeline inizializzate da COLMAP, raggiungendo risultati all'avanguardia nella NVS densa senza COLMAP e nella stima della posa. Inoltre, analizziamo le cause dei divari rimanenti rispetto al rendering inizializzato da COLMAP, fornendo spunti per lo sviluppo futuro dei modelli fondamentali 3D e della NVS densa. La nostra pagina del progetto è disponibile all'indirizzo https://dekuliutesla.github.io/vggt-x.github.io/.
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel
View Synthesis (NVS). Despite significant progress in Novel View Synthesis
powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D
attributes (e.g., camera poses and point clouds) acquired from
Structure-from-Motion (SfM), which is often slow and fragile in low-texture or
low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over
the traditional pipeline and great potential for online NVS. But most of the
validation and conclusions are confined to sparse-view settings. Our study
reveals that naively scaling 3DFMs to dense views encounters two fundamental
barriers: dramatically increasing VRAM burden and imperfect outputs that
degrade initialization-sensitive 3D training. To address these barriers, we
introduce VGGT-X, incorporating a memory-efficient VGGT implementation that
scales to 1,000+ images, an adaptive global alignment for VGGT output
enhancement, and robust 3DGS training practices. Extensive experiments show
that these measures substantially close the fidelity gap with
COLMAP-initialized pipelines, achieving state-of-the-art results in dense
COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of
remaining gaps with COLMAP-initialized rendering, providing insights for the
future development of 3D foundation models and dense NVS. Our project page is
available at https://dekuliutesla.github.io/vggt-x.github.io/