ChatPaper.aiChatPaper

Modelo de Linguagem Visual com Prompt de Região 3D Consciente

3D Aware Region Prompted Vision Language Model

September 16, 2025
Autores: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI

Resumo

Apresentamos o modelo de visão e linguagem Spatial Region 3D (SR-3D), que conecta imagens 2D de visão única e dados 3D multivista por meio de um espaço compartilhado de tokens visuais. O SR-3D suporta prompts de região flexíveis, permitindo que os usuários anotem regiões com caixas delimitadoras, máscaras de segmentação em qualquer quadro ou diretamente em 3D, sem a necessidade de rotulagem exaustiva em múltiplos quadros. Isso é alcançado ao enriquecer características visuais 2D com embeddings posicionais 3D, o que permite que o modelo 3D utilize fortes prioridades 2D para um raciocínio espacial mais preciso entre quadros, mesmo quando os objetos de interesse não ocorrem na mesma vista. Experimentos extensivos em benchmarks gerais de visão e linguagem 2D e especializados em espacialidade 3D demonstram que o SR-3D alcança desempenho de ponta, destacando sua eficácia na unificação dos espaços de representação 2D e 3D para a compreensão de cenas. Além disso, observamos aplicabilidade em vídeos do mundo real sem entradas sensoriais 3D ou anotações 3D de verdade fundamental, onde o SR-3D infere com precisão relações espaciais e medições métricas.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that connects single-view 2D images and multi-view 3D data through a shared visual token space. SR-3D supports flexible region prompting, allowing users to annotate regions with bounding boxes, segmentation masks on any frame, or directly in 3D, without the need for exhaustive multi-frame labeling. We achieve this by enriching 2D visual features with 3D positional embeddings, which allows the 3D model to draw upon strong 2D priors for more accurate spatial reasoning across frames, even when objects of interest do not co-occur within the same view. Extensive experiments on both general 2D vision language and specialized 3D spatial benchmarks demonstrate that SR-3D achieves state-of-the-art performance, underscoring its effectiveness for unifying 2D and 3D representation space on scene understanding. Moreover, we observe applicability to in-the-wild videos without sensory 3D inputs or ground-truth 3D annotations, where SR-3D accurately infers spatial relationships and metric measurements.
PDF122September 19, 2025