ChatPaper.aiChatPaper

3D Bewuste Regio-gestuurde Visuele Taal Model

3D Aware Region Prompted Vision Language Model

September 16, 2025
Auteurs: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI

Samenvatting

We presenteren Spatial Region 3D (SR-3D), een vision-language model dat enkelvoudige 2D-beelden en multi-view 3D-data verbindt via een gedeelde visuele tokenruimte. SR-3D ondersteunt flexibele region prompting, waardoor gebruikers regio's kunnen annoteren met begrenzingsvakken, segmentatiemaskers op elk frame, of direct in 3D, zonder de noodzaak van uitgebreide multi-frame labeling. We bereiken dit door 2D-visuele kenmerken te verrijken met 3D-positionele embeddings, waardoor het 3D-model kan putten uit sterke 2D-priors voor nauwkeurigere ruimtelijke redenering over frames, zelfs wanneer objecten van interesse niet gelijktijdig in hetzelfde beeld voorkomen. Uitgebreide experimenten op zowel algemene 2D vision-language als gespecialiseerde 3D ruimtelijke benchmarks demonstreren dat SR-3D state-of-the-art prestaties behaalt, wat de effectiviteit onderstreept voor het verenigen van 2D- en 3D-representatieruimte bij scenebegrip. Bovendien observeren we toepasbaarheid op in-the-wild video's zonder sensorgegevens van 3D-inputs of grondwaarheid 3D-annotaties, waarbij SR-3D nauwkeurig ruimtelijke relaties en metrische metingen afleidt.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that connects single-view 2D images and multi-view 3D data through a shared visual token space. SR-3D supports flexible region prompting, allowing users to annotate regions with bounding boxes, segmentation masks on any frame, or directly in 3D, without the need for exhaustive multi-frame labeling. We achieve this by enriching 2D visual features with 3D positional embeddings, which allows the 3D model to draw upon strong 2D priors for more accurate spatial reasoning across frames, even when objects of interest do not co-occur within the same view. Extensive experiments on both general 2D vision language and specialized 3D spatial benchmarks demonstrate that SR-3D achieves state-of-the-art performance, underscoring its effectiveness for unifying 2D and 3D representation space on scene understanding. Moreover, we observe applicability to in-the-wild videos without sensory 3D inputs or ground-truth 3D annotations, where SR-3D accurately infers spatial relationships and metric measurements.
PDF122September 19, 2025