SpatialBoost: Verbesserung der visuellen Repräsentation durch sprachgesteuertes Reasoning

Zusammenfassung

Trotz der bemerkenswerten Erfolge groß angelegter, vortrainierter Bildrepräsentationsmodelle (sogenannte Vision-Encoder) bei verschiedenen Bildverarbeitungsaufgaben, werden diese überwiegend auf 2D-Bilddaten trainiert. Infolgedessen erfassen sie oft nicht die räumlichen 3D-Beziehungen zwischen Objekten und Hintergründen in der realen Welt, was ihre Wirksamkeit in vielen nachgelagerten Anwendungen einschränkt. Um dieses Problem zu adressieren, schlagen wir SpatialBoost vor, ein skalierbares Framework, das das räumliche Bewusstsein bestehender vortrainierter Vision-Encoder verbessert, indem es 3D-Raumwissen injiziert, das in linguistischen Beschreibungen ausgedrückt wird. Die Kernidee besteht darin, dichte 3D-Rauminformationen aus 2D-Bildern in linguistische Ausdrücke umzuwandeln, die dann genutzt werden, um solches Raumwissen mithilfe eines Large Language Models (LLM) in die Vision-Encoder zu injizieren. Zu diesem Zweck verwenden wir einen mehrstufigen Chain-of-Thought (CoT)-Reasoning-Prozess, der schrittweise dichtes Raumwissen integriert und ein hierarchisches räumliches Verständnis aufbaut. Um die Wirksamkeit zu validieren, passen wir SpatialBoost an state-of-the-art Vision-Encoder wie DINOv3 an und bewerten die Leistungssteigerungen anhand einer Vielzahl von Benchmarks, die sowohl 3D-Wahrnehmung als auch allgemeine Bildverarbeitungsfähigkeiten erfordern. So verbessert SpatialBoost beispielsweise die Leistung von DINOv3 auf ADE20K von 55,9 auf 59,7 mIoU und erzielt mit einem Gewinn von 3,8 % gegenüber dem vortrainierten DINOv3 state-of-the-art Leistungen.

English

Despite the remarkable success of large-scale pre-trained image representation models (i.e., vision encoders) across various vision tasks, they are predominantly trained on 2D image data and therefore often fail to capture 3D spatial relationships between objects and backgrounds in the real world, constraining their effectiveness in many downstream applications. To address this, we propose SpatialBoost, a scalable framework that enhances the spatial awareness of existing pre-trained vision encoders by injecting 3D spatial knowledge expressed in linguistic descriptions. The core idea involves converting dense 3D spatial information from 2D images into linguistic expressions, which is then used to inject such spatial knowledge into vision encoders through a Large Language Model (LLM). To this end, we adopt a multi-turn Chain-of-Thought (CoT) reasoning process that progressively incorporates dense spatial knowledge and builds hierarchical spatial understanding. To validate effectiveness, we adapt SpatialBoost to state-of-the-art vision encoders such as DINOv3, and evaluate its performance gains on a wide range of benchmarks requiring both 3D perception and general vision abilities. For instance, SpatialBoost improves DINOv3 performance from 55.9 to 59.7 mIoU on ADE20K, achieving state-of-the-art performance with 3.8% gain over the pre-trained DINOv3.

SpatialBoost: Verbesserung der visuellen Repräsentation durch sprachgesteuertes Reasoning

SpatialBoost: Enhancing Visual Representation through Language-Guided Reasoning

Zusammenfassung

Support