SpatialBoost: Verbetering van Visuele Representatie via Taalgestuurd Redeneren

Samenvatting

Ondanks de opmerkelijke successen van grootschalige vooraf getrainde beeldrepresentatiemodellen (zogenaamde vision encoders) in diverse visuele taken, worden ze voornamelijk getraind op 2D-beeldgegevens. Hierdoor slagen ze er vaak niet in om de 3D-ruimtelijke relaties tussen objecten en achtergronden in de echte wereld vast te leggen, wat hun effectiviteit in veel downstream-toepassingen beperkt. Om dit aan te pakken, stellen we SpatialBoost voor, een schaalbaar raamwerk dat het ruimtelijk bewustzijn van bestaande vooraf getrainde vision encoders verbetert door 3D-ruimtelijke kennis, uitgedrukt in linguïstische beschrijvingen, in te brengen. De kernidee bestaat uit het omzetten van dichte 3D-ruimtelijke informatie uit 2D-beelden in linguïstische expressies, die vervolgens wordt gebruikt om dergelijke ruimtelijke kennis via een Large Language Model (LLM) in vision encoders te injecteren. Hiertoe passen we een multi-turn Chain-of-Thought (CoT) redeneerproces toe dat geleidelijk dichte ruimtelijke kennis incorporeert en een hiërarchisch ruimtelijk begrip opbouwt. Om de effectiviteit te valideren, passen we SpatialBoost aan op state-of-the-art vision encoders zoals DINOv3 en evalueren we de prestatieverbetering op een breed scala aan benchmarks die zowel 3D-perceptie als algemene visuele vaardigheden vereisen. SpatialBoost verbetert bijvoorbeeld de prestaties van DINOv3 op ADE20K van 55,9 naar 59,7 mIoU, wat een state-of-the-art prestatie oplevert met een winst van 3,8% ten opzichte van de vooraf getrainde DINOv3.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost: Verbetering van Visuele Representatie via Taalgestuurd Redeneren

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Samenvatting

Support