VGGT-X: Cuando VGGT se encuentra con la síntesis densa de nuevas vistas
VGGT-X: When VGGT Meets Dense Novel View Synthesis
September 29, 2025
Autores: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI
Resumen
Estudiamos el problema de aplicar Modelos Fundamentales 3D (3DFMs) a la Síntesis de Nuevas Vistas Densas (NVS, por sus siglas en inglés). A pesar del progreso significativo en la Síntesis de Nuevas Vistas impulsado por NeRF y 3DGS, los enfoques actuales siguen dependiendo de atributos 3D precisos (por ejemplo, poses de cámara y nubes de puntos) obtenidos mediante Estructura a partir del Movimiento (SfM), que a menudo es lento y frágil en capturas con baja textura o superposición limitada. Los 3DFMs recientes muestran una aceleración de órdenes de magnitud en comparación con el pipeline tradicional y un gran potencial para NVS en línea. Sin embargo, la mayoría de las validaciones y conclusiones se limitan a configuraciones de vistas escasas. Nuestro estudio revela que escalar 3DFMs de manera ingenua a vistas densas enfrenta dos barreras fundamentales: un aumento dramático en la carga de VRAM y salidas imperfectas que degradan el entrenamiento 3D sensible a la inicialización. Para abordar estas barreras, presentamos VGGT-X, que incorpora una implementación eficiente en memoria de VGGT que escala a más de 1,000 imágenes, una alineación global adaptativa para mejorar la salida de VGGT y prácticas robustas de entrenamiento 3DGS. Experimentos extensos muestran que estas medidas cierran sustancialmente la brecha de fidelidad con pipelines inicializados por COLMAP, logrando resultados de vanguardia en NVS densa sin COLMAP y estimación de poses. Además, analizamos las causas de las brechas restantes con la renderización inicializada por COLMAP, proporcionando insights para el desarrollo futuro de modelos fundamentales 3D y NVS densa. Nuestra página del proyecto está disponible en https://dekuliutesla.github.io/vggt-x.github.io/.
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel
View Synthesis (NVS). Despite significant progress in Novel View Synthesis
powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D
attributes (e.g., camera poses and point clouds) acquired from
Structure-from-Motion (SfM), which is often slow and fragile in low-texture or
low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over
the traditional pipeline and great potential for online NVS. But most of the
validation and conclusions are confined to sparse-view settings. Our study
reveals that naively scaling 3DFMs to dense views encounters two fundamental
barriers: dramatically increasing VRAM burden and imperfect outputs that
degrade initialization-sensitive 3D training. To address these barriers, we
introduce VGGT-X, incorporating a memory-efficient VGGT implementation that
scales to 1,000+ images, an adaptive global alignment for VGGT output
enhancement, and robust 3DGS training practices. Extensive experiments show
that these measures substantially close the fidelity gap with
COLMAP-initialized pipelines, achieving state-of-the-art results in dense
COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of
remaining gaps with COLMAP-initialized rendering, providing insights for the
future development of 3D foundation models and dense NVS. Our project page is
available at https://dekuliutesla.github.io/vggt-x.github.io/