SpatialBoost : Amélioration de la représentation visuelle par un raisonnement guidé par le langage

Résumé

Malgré le succès remarquable des modèles de représentation d'images pré-entraînés à grande échelle (c'est-à-dire les encodeurs visuels) dans diverses tâches de vision, ils sont principalement entraînés sur des données d'images 2D et échouent donc souvent à capturer les relations spatiales 3D entre les objets et les arrière-plans dans le monde réel, ce qui limite leur efficacité dans de nombreuses applications en aval. Pour remédier à cela, nous proposons SpatialBoost, un cadre évolutif qui améliore la conscience spatiale des encodeurs visuels pré-entraînés existants en injectant des connaissances spatiales 3D exprimées sous forme de descriptions linguistiques. L'idée centrale consiste à convertir des informations spatiales 3D denses à partir d'images 2D en expressions linguistiques, qui sont ensuite utilisées pour injecter ces connaissances spatiales dans les encodeurs visuels via un Grand Modèle de Langage (LLM). À cette fin, nous adoptons un processus de raisonnement en Chaîne de Pensée (CoT) multi-tours qui intègre progressivement des connaissances spatiales denses et construit une compréhension spatiale hiérarchique. Pour valider l'efficacité, nous adaptons SpatialBoost à des encodeurs visuels de pointe tels que DINOv3, et évaluons ses gains de performance sur un large éventail de benchmarks nécessitant à la fois une perception 3D et des capacités de vision générale. Par exemple, SpatialBoost améliore les performances de DINOv3 de 55,9 à 59,7 mIoU sur ADE20K, atteignant des performances de pointe avec un gain de 3,8 % par rapport au DINOv3 pré-entraîné.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost : Amélioration de la représentation visuelle par un raisonnement guidé par le langage

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Résumé

Support