LangScene-X: トリマップビデオ拡散を用いた汎用可能な3D言語埋め込みシーンの再構築
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
著者: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
要旨
2D画像からオープン・ボキャブラリのシーン理解を用いて3D構造を復元することは、基本的でありながらも困難な課題です。最近の進展では、言語情報を埋め込んだシーンごとの最適化を行うことでこれを達成しています。しかし、これらの手法はキャリブレーションされた密な視点の再構成パラダイムに大きく依存しており、限られた視点しか利用できない場合には深刻なレンダリングのアーティファクトや非現実的な意味合成が生じる問題があります。本論文では、LangScene-Xと名付けた新しい生成フレームワークを導入し、再構成と理解のための3D整合性のあるマルチモーダル情報を統一的に生成します。より整合性のある新しい観測を生成する能力を活用することで、疎な視点のみから汎用的な3D言語埋め込みシーンを構築することが可能になります。具体的には、まずTriMapビデオ拡散モデルを訓練し、段階的な知識統合を通じて疎な入力から外観(RGB)、幾何学(法線)、および意味論(セグメンテーションマップ)を生成します。さらに、大規模な画像データセットで訓練されたLanguage Quantized Compressor(LQC)を提案し、言語埋め込みを効率的に符号化することで、シーンごとの再訓練なしにクロスシーン汎化を可能にします。最後に、言語情報を3Dシーンの表面に整合させることで言語表面フィールドを再構成し、オープンエンドの言語クエリを可能にします。実世界データを用いた広範な実験により、LangScene-Xが品質と汎化性の点で最先端の手法を凌駕することを実証しています。プロジェクトページ: https://liuff19.github.io/LangScene-X。
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.