G^2VLM: Modelo de Linguagem Visual com Base Geométrica com Reconstrução 3D Unificada e Raciocínio Espacial

Resumo

Os Modelos de Visão e Linguagem (VLMs) ainda carecem de robustez na inteligência espacial, demonstrando desempenho insuficiente em tarefas de compreensão e raciocínio espacial. Atribuímos essa lacuna à ausência de um processo de aprendizagem de geometria visual capaz de reconstruir o espaço 3D a partir de imagens 2D. Apresentamos o G²VLM, um modelo de visão e linguagem ancorado em geometria que une dois aspectos fundamentais da inteligência espacial: reconstrução espacial 3D e compreensão espacial. O G²VLM aproveita nativamente características de geometria visual 3D aprendidas para prever diretamente atributos 3D e aprimorar tarefas de raciocínio espacial por meio de aprendizagem contextual e raciocínio entrelaçado. Nosso projeto unificado é altamente escalável para compreensão espacial: treina com abundantes dados de vídeo e imagens multivisuais, enquanto aproveita simultaneamente os benefícios de prévios visuais 3D que normalmente são derivados apenas de anotações difíceis de coletar. Resultados experimentais demonstram que o G²VLM é proficiente em ambas as tarefas, alcançando resultados comparáveis aos melhores modelos de reconstrução 3D feed-forward e obtendo resultados melhores ou competitivos em diversas tarefas de compreensão e raciocínio espacial. Ao unificar um VLM semanticamente forte com tarefas de visão computacional 3D de baixo nível, esperamos que o G²VLM possa servir como uma base sólida para a comunidade e desbloquear mais aplicações futuras, como a edição de cenas 3D.

English

Vision-Language Models (VLMs) still lack robustness in spatial intelligence, demonstrating poor performance on spatial understanding and reasoning tasks. We attribute this gap to the absence of a visual geometry learning process capable of reconstructing 3D space from 2D images. We present G^2VLM, a geometry grounded vision-language model that bridges two fundamental aspects of spatial intelligence: spatial 3D reconstruction and spatial understanding. G^2VLM natively leverages learned 3D visual geometry features to directly predict 3D attributes and enhance spatial reasoning tasks via in-context learning and interleaved reasoning. Our unified design is highly scalable for spatial understanding: it trains on abundant multi-view image and video data, while simultaneously leveraging the benefits of 3D visual priors that are typically only derived from hard-to-collect annotations. Experimental results demonstrate G^2VLM is proficient in both tasks, achieving comparable results to state-of-the-art feed-forward 3D reconstruction models and achieving better or competitive results across spatial understanding and reasoning tasks. By unifying a semantically strong VLM with low-level 3D vision tasks, we hope G^2VLM can serve as a strong baseline for the community and unlock more future applications, such as 3D scene editing.

G^2VLM: Modelo de Linguagem Visual com Base Geométrica com Reconstrução 3D Unificada e Raciocínio Espacial

G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Resumo

Support