SpatialBoost: Улучшение визуального представления с помощью языкового ориентированного рассуждения

Аннотация

Несмотря на выдающиеся успехи крупномасштабных предобученных моделей представления изображений (т.е. визуальных энкодеров) в решении различных задач компьютерного зрения, они преимущественно обучаются на данных 2D-изображений и, как следствие, часто не способны улавливать трехмерные пространственные взаимосвязи между объектами и фоном в реальном мире, что ограничивает их эффективность во многих прикладных задачах. Для решения этой проблемы мы предлагаем SpatialBoost — масштабируемую структуру, которая повышает пространственную осведомленность существующих предобученных визуальных энкодеров путем внедрения 3D-пространственных знаний, выраженных в лингвистических описаниях. Основная идея заключается в преобразовании плотной 3D-пространственной информации из 2D-изображений в лингвистические выражения, которые затем используются для внедрения таких пространственных знаний в визуальные энкодеры с помощью большой языковой модели (LLM). Для этого мы применяем многошаговый процесс рассуждений по цепочке мыслей (Chain-of-Thought, CoT), который постепенно интегрирует плотные пространственные знания и выстраивает иерархическое пространственное понимание. Для проверки эффективности мы адаптируем SpatialBoost к передовым визуальным энкодерам, таким как DINOv3, и оцениваем достигаемый прирост производительности на широком наборе тестов, требующих как 3D-восприятия, так и общих способностей компьютерного зрения. Например, SpatialBoost улучшает производительность DINOv3 с 55.9 до 59.7 mIoU на наборе данных ADE20K, достигая рекордного результата с приростом на 3.8% по сравнению с предобученной моделью DINOv3.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost: Улучшение визуального представления с помощью языкового ориентированного рассуждения

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Аннотация

Support