ChatPaper.aiChatPaper

3D-bewusstes Region-Prompted Vision-Language-Modell

3D Aware Region Prompted Vision Language Model

September 16, 2025
papers.authors: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI

papers.abstract

Wir präsentieren ein Spatial Region 3D (SR-3D) bewusstes Vision-Language-Modell, das Einzelbild-2D-Bilder und Multi-View-3D-Daten durch einen gemeinsamen visuellen Token-Raum verbindet. SR-3D unterstützt flexibles Region-Prompting, das es Benutzern ermöglicht, Regionen mit Begrenzungsrahmen, Segmentierungsmasken auf jedem Frame oder direkt in 3D zu annotieren, ohne dass eine umfassende Multi-Frame-Beschriftung erforderlich ist. Dies erreichen wir, indem wir 2D-visuelle Merkmale mit 3D-Positions-Einbettungen anreichern, wodurch das 3D-Modell auf starke 2D-Priors zurückgreifen kann, um eine genauere räumliche Schlussfolgerung über Frames hinweg zu ermöglichen, selbst wenn die interessierenden Objekte nicht im selben Blickfeld auftreten. Umfangreiche Experimente sowohl auf allgemeinen 2D-Vision-Language- als auch auf spezialisierten 3D-räumlichen Benchmarks zeigen, dass SR-3D state-of-the-art Leistung erzielt, was seine Effektivität bei der Vereinheitlichung von 2D- und 3D-Repräsentationsräumen für die Szenenverständigung unterstreicht. Darüber hinaus beobachten wir die Anwendbarkeit auf Videos in freier Wildbahn ohne sensorische 3D-Eingaben oder Ground-Truth-3D-Annotationen, bei denen SR-3D räumliche Beziehungen und metrische Messungen präzise ableitet.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that connects single-view 2D images and multi-view 3D data through a shared visual token space. SR-3D supports flexible region prompting, allowing users to annotate regions with bounding boxes, segmentation masks on any frame, or directly in 3D, without the need for exhaustive multi-frame labeling. We achieve this by enriching 2D visual features with 3D positional embeddings, which allows the 3D model to draw upon strong 2D priors for more accurate spatial reasoning across frames, even when objects of interest do not co-occur within the same view. Extensive experiments on both general 2D vision language and specialized 3D spatial benchmarks demonstrate that SR-3D achieves state-of-the-art performance, underscoring its effectiveness for unifying 2D and 3D representation space on scene understanding. Moreover, we observe applicability to in-the-wild videos without sensory 3D inputs or ground-truth 3D annotations, where SR-3D accurately infers spatial relationships and metric measurements.
PDF82September 17, 2025