Modello Linguistico Visivo con Prompting Regionale 3D-Aware
3D Aware Region Prompted Vision Language Model
September 16, 2025
Autori: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI
Abstract
Presentiamo Spatial Region 3D (SR-3D), un modello visione-linguaggio consapevole del 3D che collega immagini 2D a singola vista e dati 3D multivista attraverso uno spazio condiviso di token visivi. SR-3D supporta un prompting flessibile delle regioni, consentendo agli utenti di annotare regioni con bounding box, maschere di segmentazione su qualsiasi fotogramma o direttamente in 3D, senza la necessità di un'etichettatura esaustiva su più fotogrammi. Raggiungiamo questo risultato arricchendo le caratteristiche visive 2D con incorporamenti posizionali 3D, che permettono al modello 3D di attingere a forti priorità 2D per un ragionamento spaziale più accurato tra i fotogrammi, anche quando gli oggetti di interesse non compaiono nella stessa vista. Esperimenti estesi su benchmark generali di visione-linguaggio 2D e specializzati per il ragionamento spaziale 3D dimostrano che SR-3D raggiunge prestazioni all'avanguardia, sottolineando la sua efficacia nell'unificare lo spazio di rappresentazione 2D e 3D per la comprensione delle scene. Inoltre, osserviamo l'applicabilità a video in contesti reali senza input sensoriali 3D o annotazioni 3D di ground truth, dove SR-3D inferisce accuratamente relazioni spaziali e misurazioni metriche.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that
connects single-view 2D images and multi-view 3D data through a shared visual
token space. SR-3D supports flexible region prompting, allowing users to
annotate regions with bounding boxes, segmentation masks on any frame, or
directly in 3D, without the need for exhaustive multi-frame labeling. We
achieve this by enriching 2D visual features with 3D positional embeddings,
which allows the 3D model to draw upon strong 2D priors for more accurate
spatial reasoning across frames, even when objects of interest do not co-occur
within the same view. Extensive experiments on both general 2D vision language
and specialized 3D spatial benchmarks demonstrate that SR-3D achieves
state-of-the-art performance, underscoring its effectiveness for unifying 2D
and 3D representation space on scene understanding. Moreover, we observe
applicability to in-the-wild videos without sensory 3D inputs or ground-truth
3D annotations, where SR-3D accurately infers spatial relationships and metric
measurements.