ChatPaper.aiChatPaper

Visueel-ruimtelijke afstemming

Visual Spatial Tuning

November 7, 2025
Auteurs: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI

Samenvatting

Het vastleggen van ruimtelijke relaties uit visuele invoer is een hoeksteen van mensachtige algemene intelligentie. Verschillende eerdere studies hebben geprobeerd het ruimtelijk bewustzijn van Vision-Language Models (VLMs) te verbeteren door extra expert-encoders toe te voegen, wat extra overhead met zich meebrengt en doorgaans afbreuk doet aan de algemene capaciteiten. Om het ruimtelijk vermogen in algemene architecturen te verbeteren, introduceren we Visual Spatial Tuning (VST), een uitgebreid raamwerk om VLMs te voorzien van mensachtige visueel-ruimtelijke vaardigheden, van ruimtelijke perceptie tot redeneren. We proberen eerst de ruimtelijke perceptie in VLMs te verbeteren door het construeren van een grootschalige dataset genaamd VST-P, die 4,1 miljoen samples omvat over 19 vaardigheden verspreid over enkele beelden, meerdere afbeeldingen en video's. Vervolgens presenteren we VST-R, een samengestelde dataset met 135K samples die modellen instrueert om ruimtelijk te redeneren. In het bijzonder hanteren we een progressieve trainingspijplijn: supervised fine-tuning om een fundamentele ruimtelijke kennis op te bouwen, gevolgd door reinforcement learning om de ruimtelijke redeneervaardigheden verder te verbeteren. Zonder negatieve gevolgen voor de algemene capaciteiten behaalt de voorgestelde VST consistente state-of-the-art resultaten op verschillende ruimtelijke benchmarks, waaronder 34,8% op MMSI-Bench en 61,2% op VSIBench. Het blijkt dat Vision-Language-Action-modellen aanzienlijk kunnen worden verbeterd met het voorgestelde ruimtelijke tuningparadigma, wat de weg effent voor meer fysiek gegronde AI.
English
Capturing spatial relationships from visual inputs is a cornerstone of human-like general intelligence. Several previous studies have tried to enhance the spatial awareness of Vision-Language Models (VLMs) by adding extra expert encoders, which brings extra overhead and usually harms general capabilities. To enhance the spatial ability in general architectures, we introduce Visual Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with human-like visuospatial abilities, from spatial perception to reasoning. We first attempt to enhance spatial perception in VLMs by constructing a large-scale dataset termed VST-P, which comprises 4.1 million samples spanning 19 skills across single views, multiple images, and videos. Then, we present VST-R, a curated dataset with 135K samples that instruct models to reason in space. In particular, we adopt a progressive training pipeline: supervised fine-tuning to build foundational spatial knowledge, followed by reinforcement learning to further improve spatial reasoning abilities. Without the side-effect to general capabilities, the proposed VST consistently achieves state-of-the-art results on several spatial benchmarks, including 34.8% on MMSI-Bench and 61.2% on VSIBench. It turns out that the Vision-Language-Action models can be significantly enhanced with the proposed spatial tuning paradigm, paving the way for more physically grounded AI.
PDF492December 2, 2025