LangScene-X : Reconstruction de scènes 3D généralisables intégrant le langage avec la diffusion vidéo TriMap
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
Auteurs: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
Résumé
La reconstruction de structures 3D avec une compréhension de scène à vocabulaire ouvert à partir d'images 2D est une tâche fondamentale mais redoutable. Les développements récents ont permis d'y parvenir en effectuant une optimisation par scène avec des informations linguistiques intégrées. Cependant, ces méthodes reposent fortement sur le paradigme de reconstruction à vues denses calibrées, ce qui entraîne des artefacts de rendu importants et une synthèse sémantique peu plausible lorsque les vues disponibles sont limitées. Dans cet article, nous introduisons un nouveau cadre génératif, baptisé LangScene-X, pour unifier et générer des informations multimodales cohérentes en 3D pour la reconstruction et la compréhension. Grâce à la capacité générative de créer des observations nouvelles plus cohérentes, nous pouvons construire des scènes 3D généralisables avec intégration linguistique à partir de vues éparses uniquement. Plus précisément, nous entraînons d'abord un modèle de diffusion vidéo TriMap qui peut générer l'apparence (RGB), la géométrie (normales) et la sémantique (cartes de segmentation) à partir d'entrées éparses grâce à une intégration progressive des connaissances. En outre, nous proposons un Compresseur Quantifié Linguistique (LQC), entraîné sur des ensembles de données d'images à grande échelle, pour encoder efficacement les embeddings linguistiques, permettant ainsi une généralisation inter-scènes sans réentraînement par scène. Enfin, nous reconstruisons les champs de surface linguistiques en alignant les informations linguistiques sur la surface des scènes 3D, permettant des requêtes linguistiques ouvertes. Des expériences approfondies sur des données du monde réel démontrent la supériorité de notre LangScene-X par rapport aux méthodes de pointe en termes de qualité et de généralisabilité. Page du projet : https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.