ChatPaper.aiChatPaper

LangScene-X: Reconstrucción de Escenas 3D Generalizables con Lenguaje Integrado mediante Difusión de Video TriMap

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

July 3, 2025
Autores: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI

Resumen

Recuperar estructuras 3D con comprensión de escenas de vocabulario abierto a partir de imágenes 2D es una tarea fundamental pero desafiante. Los avances recientes han logrado esto mediante la optimización por escena con información lingüística integrada. Sin embargo, estos métodos dependen en gran medida del paradigma de reconstrucción de vistas densas calibradas, lo que resulta en artefactos de renderización severos y síntesis semántica poco plausible cuando solo se dispone de vistas limitadas. En este artículo, presentamos un marco generativo novedoso, denominado LangScene-X, para unificar y generar información multimodual consistente en 3D para la reconstrucción y comprensión. Potenciado por la capacidad generativa de crear observaciones novedosas más consistentes, podemos construir escenas 3D con lenguaje integrado generalizables a partir de solo unas pocas vistas. Específicamente, primero entrenamos un modelo de difusión de video TriMap que puede generar apariencia (RGBs), geometría (normales) y semántica (mapas de segmentación) a partir de entradas dispersas mediante la integración progresiva de conocimiento. Además, proponemos un Compresor Cuantizado de Lenguaje (LQC), entrenado en conjuntos de datos de imágenes a gran escala, para codificar eficientemente los embeddings lingüísticos, permitiendo la generalización entre escenas sin necesidad de reentrenamiento por escena. Finalmente, reconstruimos los campos de superficie lingüística alineando la información del lenguaje en la superficie de las escenas 3D, lo que permite consultas lingüísticas abiertas. Experimentos extensos en datos del mundo real demuestran la superioridad de nuestro LangScene-X sobre los métodos más avanzados en términos de calidad y generalización. Página del proyecto: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D images is a fundamental but daunting task. Recent developments have achieved this by performing per-scene optimization with embedded language information. However, they heavily rely on the calibrated dense-view reconstruction paradigm, thereby suffering from severe rendering artifacts and implausible semantic synthesis when limited views are available. In this paper, we introduce a novel generative framework, coined LangScene-X, to unify and generate 3D consistent multi-modality information for reconstruction and understanding. Powered by the generative capability of creating more consistent novel observations, we can build generalizable 3D language-embedded scenes from only sparse views. Specifically, we first train a TriMap video diffusion model that can generate appearance (RGBs), geometry (normals), and semantics (segmentation maps) from sparse inputs through progressive knowledge integration. Furthermore, we propose a Language Quantized Compressor (LQC), trained on large-scale image datasets, to efficiently encode language embeddings, enabling cross-scene generalization without per-scene retraining. Finally, we reconstruct the language surface fields by aligning language information onto the surface of 3D scenes, enabling open-ended language queries. Extensive experiments on real-world data demonstrate the superiority of our LangScene-X over state-of-the-art methods in terms of quality and generalizability. Project Page: https://liuff19.github.io/LangScene-X.
PDF421July 4, 2025