SpatialBoost: Mejora de la Representación Visual mediante Razonamiento Guiado por Lenguaje

Resumen

A pesar del notable éxito de los modelos de representación de imágenes preentrenados a gran escala (es decir, codificadores visuales) en diversas tareas de visión, estos se entrenan predominantemente con datos de imágenes 2D y, por lo tanto, a menudo no logran capturar las relaciones espaciales 3D entre objetos y fondos en el mundo real, lo que limita su eficacia en muchas aplicaciones posteriores. Para abordar esto, proponemos SpatialBoost, un marco escalable que mejora la conciencia espacial de los codificadores visuales preentrenados existentes mediante la inyección de conocimiento espacial 3D expresado en descripciones lingüísticas. La idea central consiste en convertir la información espacial 3D densa de imágenes 2D en expresiones lingüísticas, que luego se utiliza para inyectar dicho conocimiento espacial en los codificadores visuales a través de un Modelo de Lenguaje Grande (LLM). Para ello, adoptamos un proceso de razonamiento de Cadena de Pensamiento (CoT) de múltiples turnos que incorpora progresivamente conocimiento espacial denso y construye una comprensión espacial jerárquica. Para validar la eficacia, adaptamos SpatialBoost a codificadores visuales de vanguardia como DINOv3 y evaluamos sus mejoras de rendimiento en una amplia gama de benchmarks que requieren tanto percepción 3D como habilidades visuales generales. Por ejemplo, SpatialBoost mejora el rendimiento de DINOv3 de 55.9 a 59.7 mIoU en ADE20K, logrando un rendimiento de vanguardia con una ganancia del 3.8% sobre el DINOv3 preentrenado.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost: Mejora de la Representación Visual mediante Razonamiento Guiado por Lenguaje

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Resumen

Support