Visueel-ruimtelijke afstemming
Visual Spatial Tuning
November 7, 2025
Auteurs: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
Samenvatting
Het vastleggen van ruimtelijke relaties uit visuele invoer is een hoeksteen van mensachtige algemene intelligentie. Verschillende eerdere studies hebben geprobeerd het ruimtelijk bewustzijn van Vision-Language Models (VLMs) te verbeteren door extra expert-encoders toe te voegen, wat extra overhead met zich meebrengt en doorgaans afbreuk doet aan de algemene capaciteiten. Om het ruimtelijk vermogen in algemene architecturen te verbeteren, introduceren we Visual Spatial Tuning (VST), een uitgebreid raamwerk om VLMs te voorzien van mensachtige visueel-ruimtelijke vaardigheden, van ruimtelijke perceptie tot redeneren. We proberen eerst de ruimtelijke perceptie in VLMs te verbeteren door het construeren van een grootschalige dataset genaamd VST-P, die 4,1 miljoen samples omvat over 19 vaardigheden verspreid over enkele beelden, meerdere afbeeldingen en video's. Vervolgens presenteren we VST-R, een samengestelde dataset met 135K samples die modellen instrueert om ruimtelijk te redeneren. In het bijzonder hanteren we een progressieve trainingspijplijn: supervised fine-tuning om een fundamentele ruimtelijke kennis op te bouwen, gevolgd door reinforcement learning om de ruimtelijke redeneervaardigheden verder te verbeteren. Zonder negatieve gevolgen voor de algemene capaciteiten behaalt de voorgestelde VST consistente state-of-the-art resultaten op verschillende ruimtelijke benchmarks, waaronder 34,8% op MMSI-Bench en 61,2% op VSIBench. Het blijkt dat Vision-Language-Action-modellen aanzienlijk kunnen worden verbeterd met het voorgestelde ruimtelijke tuningparadigma, wat de weg effent voor meer fysiek gegronde AI.
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.