3D-ориентированная визуально-языковая модель с региональными подсказками
3D Aware Region Prompted Vision Language Model
September 16, 2025
Авторы: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI
Аннотация
Мы представляем модель пространственного восприятия 3D (SR-3D), которая объединяет однокадровые 2D изображения и многокадровые 3D данные через общее пространство визуальных токенов. SR-3D поддерживает гибкое выделение регионов, позволяя пользователям аннотировать области с помощью ограничивающих рамок, масок сегментации на любом кадре или непосредственно в 3D, без необходимости трудоемкой разметки на нескольких кадрах. Это достигается за счет обогащения 2D визуальных признаков 3D позиционными эмбеддингами, что позволяет 3D модели использовать сильные 2D априорные данные для более точного пространственного анализа между кадрами, даже когда объекты интереса не присутствуют в одном и том же виде. Многочисленные эксперименты на общих 2D визуально-языковых и специализированных 3D пространственных тестах демонстрируют, что SR-3D достигает наилучших результатов, подчеркивая ее эффективность в объединении 2D и 3D пространств представлений для понимания сцен. Более того, мы наблюдаем применимость модели к видео в реальных условиях без сенсорных 3D входных данных или эталонных 3D аннотаций, где SR-3D точно выводит пространственные отношения и метрические измерения.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that
connects single-view 2D images and multi-view 3D data through a shared visual
token space. SR-3D supports flexible region prompting, allowing users to
annotate regions with bounding boxes, segmentation masks on any frame, or
directly in 3D, without the need for exhaustive multi-frame labeling. We
achieve this by enriching 2D visual features with 3D positional embeddings,
which allows the 3D model to draw upon strong 2D priors for more accurate
spatial reasoning across frames, even when objects of interest do not co-occur
within the same view. Extensive experiments on both general 2D vision language
and specialized 3D spatial benchmarks demonstrate that SR-3D achieves
state-of-the-art performance, underscoring its effectiveness for unifying 2D
and 3D representation space on scene understanding. Moreover, we observe
applicability to in-the-wild videos without sensory 3D inputs or ground-truth
3D annotations, where SR-3D accurately infers spatial relationships and metric
measurements.