ChatPaper.aiChatPaper

LangScene-X: Reconstruindo Cenas 3D Generalizáveis com Incorporação de Linguagem através de Difusão de Vídeo TriMap

LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion

July 3, 2025
Autores: Fangfu Liu, Hao Li, Jiawei Chi, Hanyang Wang, Minghui Yang, Fudong Wang, Yueqi Duan
cs.AI

Resumo

Recuperar estruturas 3D com compreensão de cena de vocabulário aberto a partir de imagens 2D é uma tarefa fundamental, porém desafiadora. Desenvolvimentos recentes têm alcançado isso realizando otimização por cena com informações de linguagem incorporadas. No entanto, esses métodos dependem fortemente do paradigma de reconstrução de visão densa calibrada, sofrendo com artefatos severos de renderização e síntese semântica implausível quando há visões limitadas disponíveis. Neste artigo, introduzimos um novo framework generativo, denominado LangScene-X, para unificar e gerar informações multimodais consistentes em 3D para reconstrução e compreensão. Potencializado pela capacidade generativa de criar observações novas mais consistentes, podemos construir cenas 3D generalizáveis com linguagem incorporada a partir de apenas visões esparsas. Especificamente, primeiro treinamos um modelo de difusão de vídeo TriMap que pode gerar aparência (RGBs), geometria (normais) e semântica (mapas de segmentação) a partir de entradas esparsas por meio de integração progressiva de conhecimento. Além disso, propomos um Compressor Quantizado de Linguagem (LQC), treinado em grandes conjuntos de dados de imagens, para codificar eficientemente embeddings de linguagem, permitindo generalização entre cenas sem retreinamento por cena. Por fim, reconstruímos os campos de superfície de linguagem alinhando informações de linguagem na superfície de cenas 3D, permitindo consultas de linguagem abertas. Experimentos extensivos em dados do mundo real demonstram a superioridade do nosso LangScene-X em relação aos métodos state-of-the-art em termos de qualidade e generalização. Página do Projeto: https://liuff19.github.io/LangScene-X.
English
Recovering 3D structures with open-vocabulary scene understanding from 2D images is a fundamental but daunting task. Recent developments have achieved this by performing per-scene optimization with embedded language information. However, they heavily rely on the calibrated dense-view reconstruction paradigm, thereby suffering from severe rendering artifacts and implausible semantic synthesis when limited views are available. In this paper, we introduce a novel generative framework, coined LangScene-X, to unify and generate 3D consistent multi-modality information for reconstruction and understanding. Powered by the generative capability of creating more consistent novel observations, we can build generalizable 3D language-embedded scenes from only sparse views. Specifically, we first train a TriMap video diffusion model that can generate appearance (RGBs), geometry (normals), and semantics (segmentation maps) from sparse inputs through progressive knowledge integration. Furthermore, we propose a Language Quantized Compressor (LQC), trained on large-scale image datasets, to efficiently encode language embeddings, enabling cross-scene generalization without per-scene retraining. Finally, we reconstruct the language surface fields by aligning language information onto the surface of 3D scenes, enabling open-ended language queries. Extensive experiments on real-world data demonstrate the superiority of our LangScene-X over state-of-the-art methods in terms of quality and generalizability. Project Page: https://liuff19.github.io/LangScene-X.
PDF581July 4, 2025