LangScene-X: Ricostruzione di Scene 3D Generalizzabili con Linguaggio Incorporato mediante Diffusione Video TriMap
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
Autori: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
Abstract
Il recupero di strutture 3D con comprensione della scena a vocabolario aperto a partire da immagini 2D è un compito fondamentale ma impegnativo. Recenti sviluppi hanno raggiunto questo obiettivo eseguendo un'ottimizzazione per scena con informazioni linguistiche incorporate. Tuttavia, questi metodi si basano fortemente sul paradigma di ricostruzione a vista densa calibrata, soffrendo quindi di gravi artefatti di rendering e sintesi semantiche implausibili quando sono disponibili solo viste limitate. In questo articolo, introduciamo un nuovo framework generativo, denominato LangScene-X, per unificare e generare informazioni multimodali 3D coerenti per la ricostruzione e la comprensione. Grazie alla capacità generativa di creare osservazioni nuove più coerenti, possiamo costruire scene 3D con linguaggio incorporato generalizzabili a partire solo da viste sparse. Nello specifico, addestriamo prima un modello di diffusione video TriMap che può generare aspetto (RGB), geometria (normali) e semantica (mappe di segmentazione) da input sparsi attraverso un'integrazione progressiva della conoscenza. Inoltre, proponiamo un Compressore Quantizzato Linguistico (LQC), addestrato su grandi dataset di immagini, per codificare in modo efficiente gli embedding linguistici, consentendo la generalizzazione tra scene senza necessità di riaddestramento per scena. Infine, ricostruiamo i campi di superficie linguistici allineando le informazioni linguistiche sulla superficie delle scene 3D, abilitando query linguistiche aperte. Esperimenti estensivi su dati del mondo reale dimostrano la superiorità del nostro LangScene-X rispetto ai metodi più avanzati in termini di qualità e generalizzabilità. Pagina del progetto: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.