LangScene-X: TriMap 비디오 확산을 통한 일반화 가능한 3D 언어 임베딩 장면 재구성
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
저자: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
초록
2D 이미지에서 개방형 어휘 장면 이해를 통해 3D 구조를 복원하는 것은 근본적이지만 어려운 과제입니다. 최근 발전은 언어 정보를 내재화하여 장면별 최적화를 수행함으로써 이를 달성했습니다. 그러나 이러한 방법들은 보정된 밀집 뷰 재구성 패러다임에 크게 의존하기 때문에, 제한된 뷰가 제공될 때 심각한 렌더링 아티팩트와 비현실적인 의미론적 합성 문제에 직면합니다. 본 논문에서는 LangScene-X라는 새로운 생성 프레임워크를 소개하여 재구성과 이해를 위한 3D 일관된 다중 모달리티 정보를 통합하고 생성합니다. 더 일관된 새로운 관측을 생성하는 생성 능력을 기반으로, 희소 뷰만으로도 일반화 가능한 3D 언어 내재화 장면을 구축할 수 있습니다. 구체적으로, 먼저 TriMap 비디오 확산 모델을 학습시켜 희소 입력으로부터 외관(RGB), 기하학적 구조(노멀), 그리고 의미론적 정보(세그멘테이션 맵)를 점진적 지식 통합을 통해 생성합니다. 또한, 대규모 이미지 데이터셋에서 학습된 언어 양자화 압축기(LQC)를 제안하여 언어 임베딩을 효율적으로 인코딩함으로써 장면별 재학습 없이도 장면 간 일반화를 가능하게 합니다. 마지막으로, 언어 정보를 3D 장면의 표면에 정렬하여 언어 표면 필드를 재구성함으로써 개방형 언어 질의를 가능하게 합니다. 실제 데이터에 대한 광범위한 실험을 통해 LangScene-X가 품질과 일반화 능력 측면에서 최신 방법들을 능가함을 입증합니다. 프로젝트 페이지: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.