VGGT-X: Когда VGGT встречается с плотным синтезом новых видов
VGGT-X: When VGGT Meets Dense Novel View Synthesis
September 29, 2025
Авторы: Yang Liu, Chuanchen Luo, Zimo Tang, Junran Peng, Zhaoxiang Zhang
cs.AI
Аннотация
Мы исследуем проблему применения 3D-фундаментальных моделей (3DFMs) для задачи плотного синтеза новых видов (NVS). Несмотря на значительный прогресс в синтезе новых видов, достигнутый благодаря NeRF и 3DGS, современные подходы по-прежнему зависят от точных 3D-атрибутов (например, поз камер и облаков точек), полученных с помощью метода Structure-from-Motion (SfM), который часто оказывается медленным и ненадежным в условиях низкой текстуры или малого перекрытия снимков. Недавние 3DFMs демонстрируют ускорение на порядки по сравнению с традиционным подходом и большой потенциал для онлайн-синтеза новых видов. Однако большая часть валидации и выводов ограничена сценариями с малым количеством снимков. Наше исследование показывает, что простое масштабирование 3DFMs для плотных снимков сталкивается с двумя фундаментальными барьерами: резким увеличением нагрузки на видеопамять (VRAM) и несовершенными результатами, которые ухудшают чувствительную к инициализации 3D-обучение. Для преодоления этих барьеров мы представляем VGGT-X, включающий эффективную по памяти реализацию VGGT, масштабируемую до 1000+ изображений, адаптивное глобальное выравнивание для улучшения выходных данных VGGT и устойчивые практики обучения 3DGS. Эксперименты показывают, что эти меры существенно сокращают разрыв в качестве по сравнению с подходами, инициализированными через COLMAP, достигая передовых результатов в плотном синтезе новых видов и оценке поз без использования COLMAP. Кроме того, мы анализируем причины оставшегося разрыва с рендерингом, инициализированным через COLMAP, предоставляя инсайты для будущего развития 3D-фундаментальных моделей и плотного синтеза новых видов. Наша страница проекта доступна по адресу https://dekuliutesla.github.io/vggt-x.github.io/.
English
We study the problem of applying 3D Foundation Models (3DFMs) to dense Novel
View Synthesis (NVS). Despite significant progress in Novel View Synthesis
powered by NeRF and 3DGS, current approaches remain reliant on accurate 3D
attributes (e.g., camera poses and point clouds) acquired from
Structure-from-Motion (SfM), which is often slow and fragile in low-texture or
low-overlap captures. Recent 3DFMs showcase orders of magnitude speedup over
the traditional pipeline and great potential for online NVS. But most of the
validation and conclusions are confined to sparse-view settings. Our study
reveals that naively scaling 3DFMs to dense views encounters two fundamental
barriers: dramatically increasing VRAM burden and imperfect outputs that
degrade initialization-sensitive 3D training. To address these barriers, we
introduce VGGT-X, incorporating a memory-efficient VGGT implementation that
scales to 1,000+ images, an adaptive global alignment for VGGT output
enhancement, and robust 3DGS training practices. Extensive experiments show
that these measures substantially close the fidelity gap with
COLMAP-initialized pipelines, achieving state-of-the-art results in dense
COLMAP-free NVS and pose estimation. Additionally, we analyze the causes of
remaining gaps with COLMAP-initialized rendering, providing insights for the
future development of 3D foundation models and dense NVS. Our project page is
available at https://dekuliutesla.github.io/vggt-x.github.io/