ChatPaper.aiChatPaper

VGGT-X: Quando VGGT Encontra a Síntese Densa de Novas Visões

VGGT-X: When VGGT Meets Dense Novel View Synthesis

September 29, 2025
Autores: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI

Resumo

Estudamos o problema de aplicar Modelos de Base 3D (3DFMs) à Síntese de Novas Visões Densas (NVS). Apesar dos avanços significativos na Síntese de Novas Visões impulsionados por NeRF e 3DGS, as abordagens atuais ainda dependem de atributos 3D precisos (por exemplo, poses de câmera e nuvens de pontos) obtidos por Estrutura a partir de Movimento (SfM), que muitas vezes é lento e frágil em capturas com baixa textura ou baixa sobreposição. Modelos de Base 3D recentes demonstram uma aceleração de ordens de magnitude em relação ao pipeline tradicional e um grande potencial para NVS online. No entanto, a maior parte da validação e conclusões está limitada a configurações de visões esparsas. Nosso estudo revela que a simples escalonamento de 3DFMs para visões densas encontra duas barreiras fundamentais: o aumento dramático da carga de VRAM e saídas imperfeitas que degradam o treinamento 3D sensível à inicialização. Para abordar essas barreiras, introduzimos o VGGT-X, incorporando uma implementação eficiente em memória do VGGT que escala para mais de 1.000 imagens, um alinhamento global adaptativo para aprimoramento da saída do VGGT e práticas robustas de treinamento 3DGS. Experimentos extensivos mostram que essas medidas reduzem substancialmente a lacuna de fidelidade com pipelines inicializados por COLMAP, alcançando resultados de ponta em NVS densa sem COLMAP e estimativa de pose. Além disso, analisamos as causas das lacunas remanescentes com renderização inicializada por COLMAP, fornecendo insights para o desenvolvimento futuro de modelos de base 3D e NVS densa. Nossa página do projeto está disponível em https://dekuliutesla.github.io/vggt-x.github.io/.
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel View Synthesis (NVS). Despite significant progress in Novel View Synthesis powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D attributes (e.g., camera poses and point clouds) acquired from Structure-from-Motion (SfM), which is often slow and fragile in low-texture or low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over the traditional pipeline and great potential for online NVS. But most of the validation and conclusions are confined to sparse-view settings. Our study reveals that naively scaling 3DFMs to dense views encounters two fundamental barriers: dramatically increasing VRAM burden and imperfect outputs that degrade initialization-sensitive 3D training. To address these barriers, we introduce VGGT-X, incorporating a memory-efficient VGGT implementation that scales to 1,000+ images, an adaptive global alignment for VGGT output enhancement, and robust 3DGS training practices. Extensive experiments show that these measures substantially close the fidelity gap with COLMAP-initialized pipelines, achieving state-of-the-art results in dense COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of remaining gaps with COLMAP-initialized rendering, providing insights for the future development of 3D foundation models and dense NVS. Our project page is available at https://dekuliutesla.github.io/vggt-x.github.io/
PDF182September 30, 2025