LangScene-X: Rekonstruktion generalisierbarer 3D-Sprach-embedder Szenen mit TriMap-Video-Diffusion
LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion
July 3, 2025
Autoren: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI
Zusammenfassung
Die Rekonstruktion von 3D-Strukturen mit offenem Vokabular und Szenenverständnis aus 2D-Bildern ist eine grundlegende, aber herausfordernde Aufgabe. Jüngste Entwicklungen haben dies durch eine pro-Szene-Optimierung mit eingebetteten Sprachinformationen erreicht. Diese Ansätze sind jedoch stark auf das kalibrierte Paradigma der dichten Ansichtsrekonstruktion angewiesen, was zu schwerwiegenden Rendering-Artefakten und unglaubwürdiger semantischer Synthese führt, wenn nur begrenzte Ansichten verfügbar sind. In diesem Artikel stellen wir ein neuartiges generatives Framework vor, genannt LangScene-X, das die Erzeugung konsistenter multimodaler Informationen für die Rekonstruktion und das Verständnis vereinheitlicht. Durch die generative Fähigkeit, konsistentere neue Beobachtungen zu erzeugen, können wir generalisierbare 3D-Szenen mit eingebetteter Sprache aus nur wenigen Ansichten erstellen. Konkret trainieren wir zunächst ein TriMap-Video-Diffusionsmodell, das Erscheinungsbild (RGBs), Geometrie (Normalen) und Semantik (Segmentierungskarten) aus spärlichen Eingaben durch progressive Wissensintegration erzeugen kann. Darüber hinaus schlagen wir einen Language Quantized Compressor (LQC) vor, der auf großen Bilddatensätzen trainiert wird, um Spracheinbettungen effizient zu kodieren und somit eine übergreifende Generalisierung ohne erneutes Training pro Szene zu ermöglichen. Schließlich rekonstruieren wir die Sprachoberflächenfelder, indem wir Sprachinformationen auf die Oberfläche von 3D-Szenen ausrichten, was offene Sprachabfragen ermöglicht. Umfangreiche Experimente mit realen Daten demonstrieren die Überlegenheit unseres LangScene-X gegenüber state-of-the-art Methoden in Bezug auf Qualität und Generalisierbarkeit. Projektseite: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D
images is a fundamental but daunting task. Recent developments have achieved
this by performing per-scene optimization with embedded language information.
However, they heavily rely on the calibrated dense-view reconstruction
paradigm, thereby suffering from severe rendering artifacts and implausible
semantic synthesis when limited views are available. In this paper, we
introduce a novel generative framework, coined LangScene-X, to unify and
generate 3D consistent multi-modality information for reconstruction and
understanding. Powered by the generative capability of creating more consistent
novel observations, we can build generalizable 3D language-embedded scenes from
only sparse views. Specifically, we first train a TriMap video diffusion model
that can generate appearance (RGBs), geometry (normals), and semantics
(segmentation maps) from sparse inputs through progressive knowledge
integration. Furthermore, we propose a Language Quantized Compressor (LQC),
trained on large-scale image datasets, to efficiently encode language
embeddings, enabling cross-scene generalization without per-scene retraining.
Finally, we reconstruct the language surface fields by aligning language
information onto the surface of 3D scenes, enabling open-ended language
queries. Extensive experiments on real-world data demonstrate the superiority
of our LangScene-X over state-of-the-art methods in terms of quality and
generalizability. Project Page: https://liuff19.github.io/LangScene-X.