Sintonizzazione Spaziale Visiva
Visual Spatial Tuning
November 7, 2025
Autori: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
Abstract
La capacità di cogliere relazioni spaziali da input visivi è un pilastro fondamentale dell'intelligenza generale di tipo umano. Diversi studi precedenti hanno tentato di potenziare la consapevolezza spaziale dei Modelli Visione-Linguaggio (VLM) aggiungendo encoder specializzati aggiuntivi, il che comporta un sovraccarico computazionale e spesso compromette le capacità generali. Per potenziare le abilità spaziali in architetture generaliste, introduciamo Visual Spatial Tuning (VST), un framework completo per sviluppare nei VLM abilità visuo-spaziali simili a quelle umane, dalla percezione al ragionamento spaziale. Iniziamo tentando di potenziare la percezione spaziale nei VLM costruendo un dataset su larga scala denominato VST-P, che comprende 4,1 milioni di campioni che abbracciano 19 abilità attraverso viste singole, immagini multiple e video. Successivamente, presentiamo VST-R, un dataset curato con 135.000 campioni che istruisce i modelli a ragionare nello spazio. In particolare, adottiamo una pipeline di addestramento progressiva: fine-tuning supervisionato per costruire una conoscenza spaziale di base, seguito da apprendimento per rinforzo per migliorare ulteriormente le abilità di ragionamento spaziale. Senza effetti collaterali sulle capacità generali, il VST proposto ottiene costantemente risultati all'avanguardia su diversi benchmark spaziali, inclusi il 34,8% su MMSI-Bench e il 61,2% su VSIBench. I risultati dimostrano che i modelli Visione-Linguaggio-Azione possono essere significativamente potenziati con il paradigma di tuning spaziale proposto, aprendo la strada a un'IA più ancorata alla realtà fisica.
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.