Modèle de vision et langage avec incitation régionale 3D consciente
3D Aware Region Prompted Vision Language Model
September 16, 2025
papers.authors: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI
papers.abstract
Nous présentons Spatial Region 3D (SR-3D), un modèle vision-langage conscient de l'espace 3D qui relie des images 2D monoculaires et des données 3D multivues à travers un espace de tokens visuels partagé. SR-3D prend en charge l'annotation flexible de régions, permettant aux utilisateurs d'annoter des zones avec des boîtes englobantes, des masques de segmentation sur n'importe quelle image, ou directement en 3D, sans nécessiter un étiquetage exhaustif sur plusieurs images. Nous y parvenons en enrichissant les caractéristiques visuelles 2D avec des embeddings de position 3D, ce qui permet au modèle 3D de s'appuyer sur de solides a priori 2D pour un raisonnement spatial plus précis entre les images, même lorsque les objets d'intérêt ne coïncident pas dans la même vue. Des expériences approfondies sur des benchmarks généraux de vision-langage 2D et spécialisés en raisonnement spatial 3D démontrent que SR-3D atteint des performances de pointe, soulignant son efficacité pour unifier les espaces de représentation 2D et 3D dans la compréhension de scènes. De plus, nous observons une applicabilité aux vidéos en conditions réelles sans entrées sensorielles 3D ni annotations 3D de référence, où SR-3D infère avec précision les relations spatiales et les mesures métriques.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that
connects single-view 2D images and multi-view 3D data through a shared visual
token space. SR-3D supports flexible region prompting, allowing users to
annotate regions with bounding boxes, segmentation masks on any frame, or
directly in 3D, without the need for exhaustive multi-frame labeling. We
achieve this by enriching 2D visual features with 3D positional embeddings,
which allows the 3D model to draw upon strong 2D priors for more accurate
spatial reasoning across frames, even when objects of interest do not co-occur
within the same view. Extensive experiments on both general 2D vision language
and specialized 3D spatial benchmarks demonstrate that SR-3D achieves
state-of-the-art performance, underscoring its effectiveness for unifying 2D
and 3D representation space on scene understanding. Moreover, we observe
applicability to in-the-wild videos without sensory 3D inputs or ground-truth
3D annotations, where SR-3D accurately infers spatial relationships and metric
measurements.