VGGT-X: Wenn VGGT auf die dichte Synthese neuer Ansichten trifft
VGGT-X: When VGGT Meets Dense Novel View Synthesis
September 29, 2025
papers.authors: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI
papers.abstract
Wir untersuchen das Problem der Anwendung von 3D-Foundation-Modellen (3DFMs) auf die dichte Neuansichtssynthese (Novel View Synthesis, NVS). Trotz erheblicher Fortschritte in der Neuansichtssynthese, die durch NeRF und 3DGS ermöglicht werden, sind aktuelle Ansätze weiterhin auf präzise 3D-Attribute (z.B. Kameraposen und Punktwolken) angewiesen, die durch Structure-from-Motion (SfM) erfasst werden. Dies ist jedoch oft langsam und fehleranfällig bei Aufnahmen mit geringer Textur oder geringer Überlappung. Neuere 3DFMs zeigen eine um Größenordnungen beschleunigte Verarbeitung im Vergleich zur traditionellen Pipeline und großes Potenzial für Online-NVS. Die meisten Validierungen und Schlussfolgerungen beschränken sich jedoch auf Sparse-View-Szenarien. Unsere Studie zeigt, dass die naive Skalierung von 3DFMs auf dichte Ansichten auf zwei grundlegende Barrieren stößt: einen dramatisch ansteigenden VRAM-Bedarf und unvollkommene Ausgaben, die die initialisierungsempfindliche 3D-Ausbildung beeinträchtigen. Um diese Barrieren zu überwinden, führen wir VGGT-X ein, das eine speichereffiziente VGGT-Implementierung umfasst, die auf über 1.000 Bilder skaliert, eine adaptive globale Ausrichtung zur Verbesserung der VGGT-Ausgaben sowie robuste 3DGS-Trainingspraktiken. Umfangreiche Experimente zeigen, dass diese Maßnahmen die Qualitätslücke zu COLMAP-initialisierten Pipelines erheblich verringern und state-of-the-art Ergebnisse in der dichten COLMAP-freien NVS und Pose-Schätzung erzielen. Zusätzlich analysieren wir die Ursachen der verbleibenden Lücken im Vergleich zu COLMAP-initialisiertem Rendering und liefern Erkenntnisse für die zukünftige Entwicklung von 3D-Foundation-Modellen und dichter NVS. Unsere Projektseite ist unter https://dekuliutesla.github.io/vggt-x.github.io/ verfügbar.
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel
View Synthesis (NVS). Despite significant progress in Novel View Synthesis
powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D
attributes (e.g., camera poses and point clouds) acquired from
Structure-from-Motion (SfM), which is often slow and fragile in low-texture or
low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over
the traditional pipeline and great potential for online NVS. But most of the
validation and conclusions are confined to sparse-view settings. Our study
reveals that naively scaling 3DFMs to dense views encounters two fundamental
barriers: dramatically increasing VRAM burden and imperfect outputs that
degrade initialization-sensitive 3D training. To address these barriers, we
introduce VGGT-X, incorporating a memory-efficient VGGT implementation that
scales to 1,000+ images, an adaptive global alignment for VGGT output
enhancement, and robust 3DGS training practices. Extensive experiments show
that these measures substantially close the fidelity gap with
COLMAP-initialized pipelines, achieving state-of-the-art results in dense
COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of
remaining gaps with COLMAP-initialized rendering, providing insights for the
future development of 3D foundation models and dense NVS. Our project page is
available at https://dekuliutesla.github.io/vggt-x.github.io/