ChatPaper.aiChatPaper

Modelo de Lenguaje Visual con Indicación de Regiones 3D Conscientes

3D Aware Region Prompted Vision Language Model

September 16, 2025
Autores: An-Chieh Cheng, Yang Fu, Yukang Chen, Zhijian Liu, Xiaolong Li, Subhashree Radhakrishnan, Song Han, Yao Lu, Jan Kautz, Pavlo Molchanov, Hongxu Yin, Xiaolong Wang, Sifei Liu
cs.AI

Resumen

Presentamos un modelo de visión y lenguaje consciente de Regiones Espaciales 3D (SR-3D) que conecta imágenes 2D de vista única y datos 3D multivista a través de un espacio compartido de tokens visuales. SR-3D admite indicaciones flexibles de regiones, permitiendo a los usuarios anotar regiones con cuadros delimitadores, máscaras de segmentación en cualquier fotograma o directamente en 3D, sin necesidad de un etiquetado exhaustivo en múltiples fotogramas. Logramos esto enriqueciendo las características visuales 2D con incrustaciones posicionales 3D, lo que permite al modelo 3D aprovechar fuertes prioridades 2D para un razonamiento espacial más preciso entre fotogramas, incluso cuando los objetos de interés no coinciden en la misma vista. Experimentos extensos tanto en benchmarks generales de visión y lenguaje 2D como en benchmarks especializados de espacialidad 3D demuestran que SR-3D alcanza un rendimiento de vanguardia, destacando su efectividad para unificar los espacios de representación 2D y 3D en la comprensión de escenas. Además, observamos aplicabilidad en videos en entornos naturales sin entradas sensoriales 3D o anotaciones 3D de referencia, donde SR-3D infiere con precisión relaciones espaciales y mediciones métricas.
English
We present Spatial Region 3D (SR-3D) aware vision-language model that connects single-view 2D images and multi-view 3D data through a shared visual token space. SR-3D supports flexible region prompting, allowing users to annotate regions with bounding boxes, segmentation masks on any frame, or directly in 3D, without the need for exhaustive multi-frame labeling. We achieve this by enriching 2D visual features with 3D positional embeddings, which allows the 3D model to draw upon strong 2D priors for more accurate spatial reasoning across frames, even when objects of interest do not co-occur within the same view. Extensive experiments on both general 2D vision language and specialized 3D spatial benchmarks demonstrate that SR-3D achieves state-of-the-art performance, underscoring its effectiveness for unifying 2D and 3D representation space on scene understanding. Moreover, we observe applicability to in-the-wild videos without sensory 3D inputs or ground-truth 3D annotations, where SR-3D accurately infers spatial relationships and metric measurements.
PDF81September 17, 2025