SpatialBoost: Aprimorando a Representação Visual por Meio do Raciocínio Guiado por Linguagem

Resumo

Apesar do notável sucesso dos modelos de representação de imagens em larga escala pré-treinados (ou seja, codificadores visuais) em várias tarefas de visão computacional, eles são predominantemente treinados em dados de imagem 2D e, portanto, frequentemente falham em capturar relações espaciais 3D entre objetos e fundos no mundo real, limitando sua eficácia em muitas aplicações downstream. Para resolver isso, propomos o SpatialBoost, uma estrutura escalável que melhora a percepção espacial de codificadores visuais pré-treinados existentes através da injeção de conhecimento espacial 3D expresso em descrições linguísticas. A ideia central envolve converter informações espaciais 3D densas de imagens 2D em expressões linguísticas, que são então usadas para injetar esse conhecimento espacial nos codificadores visuais por meio de um Modelo de Linguagem de Grande Porte (LLM). Para isso, adotamos um processo de raciocínio em cadeia (Chain-of-Thought - CoT) de múltiplas etapas que incorpora progressivamente conhecimento espacial denso e constrói uma compreensão espacial hierárquica. Para validar a eficácia, adaptamos o SpatialBoost a codificadores visuais state-of-the-art como o DINOv3 e avaliamos seus ganhos de desempenho em uma ampla gama de benchmarks que exigem tanto percepção 3D quanto habilidades visuais gerais. Por exemplo, o SpatialBoost melhora o desempenho do DINOv3 de 55,9 para 59,7 mIoU no ADE20K, alcançando desempenho state-of-the-art com um ganho de 3,8% sobre o DINOv3 pré-treinado.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost: Aprimorando a Representação Visual por Meio do Raciocínio Guiado por Linguagem

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Resumo

Support