LangScene-X: Реконструкция обобщаемых 3D-сцен с языковым вложением с использованием TriMap видео-диффузии
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
Авторы: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
Аннотация
Восстановление 3D-структур с пониманием сцены на основе открытого словаря из 2D-изображений является фундаментальной, но сложной задачей. Последние достижения в этой области были реализованы за счет оптимизации для каждой сцены с использованием встроенной языковой информации. Однако такие методы сильно зависят от парадигмы реконструкции с калиброванными плотными видами, что приводит к серьезным артефактам рендеринга и неправдоподобному семантическому синтезу при ограниченном количестве доступных видов. В данной работе мы представляем новый генеративный фреймворк, названный LangScene-X, который объединяет и генерирует согласованную 3D-информацию в различных модальностях для реконструкции и понимания. Благодаря способности создавать более согласованные новые наблюдения, мы можем строить обобщаемые 3D-сцены с встроенным языком, используя только разреженные виды. В частности, мы сначала обучаем модель TriMap video diffusion, которая может генерировать внешний вид (RGB), геометрию (нормали) и семантику (карты сегментации) из разреженных входных данных через прогрессивную интеграцию знаний. Кроме того, мы предлагаем Language Quantized Compressor (LQC), обученный на больших наборах изображений, для эффективного кодирования языковых эмбеддингов, что позволяет обобщать информацию между сценами без необходимости переобучения для каждой сцены. Наконец, мы реконструируем языковые поверхностные поля, выравнивая языковую информацию на поверхности 3D-сцен, что позволяет выполнять открытые языковые запросы. Эксперименты на реальных данных демонстрируют превосходство нашего LangScene-X по сравнению с современными методами в плане качества и обобщаемости. Страница проекта: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.