LangScene-X: Reconstrueren van generaliseerbare 3D taal-geïntegreerde scènes met TriMap videodiffusie
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
Auteurs: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
Samenvatting
Het herstellen van 3D-structuren met open-vocabulary scene understanding vanuit 2D-beelden is een fundamentele maar uitdagende taak. Recente ontwikkelingen hebben dit bereikt door per-scene optimalisatie uit te voeren met ingebedde taal informatie. Echter, ze zijn sterk afhankelijk van het gekalibreerde dense-view reconstructie paradigma, waardoor ze te lijden hebben onder ernstige rendering artefacten en ongeloofwaardige semantische synthese wanneer er beperkte views beschikbaar zijn. In dit artikel introduceren we een nieuw generatief framework, genaamd LangScene-X, om 3D-consistente multimodale informatie te unificeren en te genereren voor reconstructie en begrip. Aangedreven door de generatieve capaciteit om meer consistente nieuwe observaties te creëren, kunnen we generaliseerbare 3D taal-ingebedde scenes bouwen vanuit slechts spaarzame views. Specifiek trainen we eerst een TriMap video diffusie model dat verschijning (RGB's), geometrie (normalen) en semantiek (segmentatiekaarten) kan genereren vanuit spaarzame inputs door middel van progressieve kennisintegratie. Verder stellen we een Language Quantized Compressor (LQC) voor, getraind op grootschalige beelddatasets, om taal embeddings efficiënt te coderen, waardoor cross-scene generalisatie mogelijk wordt zonder per-scene hertraining. Ten slotte reconstrueren we de taal oppervlakte velden door taal informatie uit te lijnen op het oppervlak van 3D-scenes, waardoor open-ended taal queries mogelijk worden. Uitgebreide experimenten op real-world data demonstreren de superioriteit van onze LangScene-X ten opzichte van state-of-the-art methoden in termen van kwaliteit en generaliseerbaarheid. Project Pagina: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.