Sintonizzazione Spaziale Visiva

Abstract

La capacità di cogliere relazioni spaziali da input visivi è un pilastro fondamentale dell'intelligenza generale di tipo umano. Diversi studi precedenti hanno tentato di potenziare la consapevolezza spaziale dei Modelli Visione-Linguaggio (VLM) aggiungendo encoder specializzati aggiuntivi, il che comporta un sovraccarico computazionale e spesso compromette le capacità generali. Per potenziare le abilità spaziali in architetture generaliste, introduciamo Visual Spatial Tuning (VST), un framework completo per sviluppare nei VLM abilità visuo-spaziali simili a quelle umane, dalla percezione al ragionamento spaziale. Iniziamo tentando di potenziare la percezione spaziale nei VLM costruendo un dataset su larga scala denominato VST-P, che comprende 4,1 milioni di campioni che abbracciano 19 abilità attraverso viste singole, immagini multiple e video. Successivamente, presentiamo VST-R, un dataset curato con 135.000 campioni che istruisce i modelli a ragionare nello spazio. In particolare, adottiamo una pipeline di addestramento progressiva: fine-tuning supervisionato per costruire una conoscenza spaziale di base, seguito da apprendimento per rinforzo per migliorare ulteriormente le abilità di ragionamento spaziale. Senza effetti collaterali sulle capacità generali, il VST proposto ottiene costantemente risultati all'avanguardia su diversi benchmark spaziali, inclusi il 34,8% su MMSI-Bench e il 61,2% su VSIBench. I risultati dimostrano che i modelli Visione-Linguaggio-Azione possono essere significativamente potenziati con il paradigma di tuning spaziale proposto, aprendo la strada a un'IA più ancorata alla realtà fisica.

English

Capturing spatial relationships from visual inputs is a cornerstone of human-like general intelligence. Several previous studies have tried to enhance the spatial awareness of Vision-Language Models (VLMs) by adding extra expert encoders, which brings extra overhead and usually harms general capabilities. To enhance the spatial ability in general architectures, we introduce Visual Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with human-like visuospatial abilities, from spatial perception to reasoning. We first attempt to enhance spatial perception in VLMs by constructing a large-scale dataset termed VST-P, which comprises 4.1 million samples spanning 19 skills across single views, multiple images, and videos. Then, we present VST-R, a curated dataset with 135K samples that instruct models to reason in space. In particular, we adopt a progressive training pipeline: supervised fine-tuning to build foundational spatial knowledge, followed by reinforcement learning to further improve spatial reasoning abilities. Without the side-effect to general capabilities, the proposed VST consistently achieves state-of-the-art results on several spatial benchmarks, including 34.8% on MMSI-Bench and 61.2% on VSIBench. It turns out that the Vision-Language-Action models can be significantly enhanced with the proposed spatial tuning paradigm, paving the way for more physically grounded AI.