SpatialBoost: Miglioramento della Rappresentazione Visiva tramite Ragionamento Guidato dal Linguaggio

Abstract

Nonostante il notevole successo dei modelli di rappresentazione d'immagine pre-addestrati su larga scala (cioè, encoder visivi) in varie attività di visione artificiale, essi sono prevalentemente addestrati su dati d'immagine 2D e pertanto spesso non riescono a cogliere le relazioni spaziali 3D tra oggetti e sfondi nel mondo reale, limitando la loro efficacia in molte applicazioni downstream. Per affrontare questo problema, proponiamo SpatialBoost, un framework scalabile che migliora la consapevolezza spaziale degli encoder visivi pre-addestrati esistenti iniettando conoscenza spaziale 3D espressa in descrizioni linguistiche. L'idea centrale prevede la conversione delle dense informazioni spaziali 3D da immagini 2D in espressioni linguistiche, che vengono poi utilizzate per iniettare tale conoscenza spaziale negli encoder visivi attraverso un Large Language Model (LLM). A tal fine, adottiamo un processo di ragionamento a catena del pensiero (Chain-of-Thought, CoT) a più turni che incorpora progressivamente la conoscenza spaziale densa e costruisce una comprensione spaziale gerarchica. Per validare l'efficacia, adattiamo SpatialBoost a encoder visivi all'avanguardia come DINOv3 e ne valutiamo i miglioramenti delle prestazioni su un'ampia gamma di benchmark che richiedono sia percezione 3D che abilità visive generali. Ad esempio, SpatialBoost migliora le prestazioni di DINOv3 da 55,9 a 59,7 mIoU su ADE20K, raggiungendo prestazioni allo stato dell'arte con un guadagno del 3,8% rispetto al DINOv3 pre-addestrato.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost: Miglioramento della Rappresentazione Visiva tramite Ragionamento Guidato dal Linguaggio

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Abstract

Support