Ajustement visuo-spatial
Visual Spatial Tuning
November 7, 2025
papers.authors: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
papers.abstract
La capture des relations spatiales à partir d'entrées visuelles est une pierre angulaire de l'intelligence générale de type humain. Plusieurs études antérieures ont tenté d'améliorer la conscience spatiale des modèles vision-langage (VLM) en ajoutant des encodeurs experts supplémentaires, ce qui engendre une surcharge computationnelle et nuit généralement aux capacités générales. Pour renforcer les capacités spatiales dans les architectures générales, nous présentons VST (Visual Spatial Tuning), un cadre complet visant à doter les VLM de capacités visuo-spatiales semblables à celles des humains, allant de la perception au raisonnement spatial. Nous tentons d'abord d'améliorer la perception spatiale des VLM en construisant un jeu de données à grande échelle nommé VST-P, qui comprend 4,1 millions d'échantillons couvrant 19 compétences sur des vues uniques, des images multiples et des vidéos. Ensuite, nous présentons VST-R, un jeu de données soigneusement constitué avec 135 000 échantillons qui instruisent les modèles à raisonner dans l'espace. Nous adoptons notamment un pipeline d'entraînement progressif : un fine-tuning supervisé pour construire des connaissances spatiales fondamentales, suivi d'un apprentissage par renforcement pour améliorer davantage les capacités de raisonnement spatial. Sans effet secondaire sur les capacités générales, la méthode VST proposée obtient systématiquement des résultats state-of-the-art sur plusieurs benchmarks spatiaux, notamment 34,8 % sur MMSI-Bench et 61,2 % sur VSIBench. Il s'avère que les modèles Vision-Langage-Action peuvent être significativement améliorés avec le paradigme de réglage spatial proposé, ouvrant la voie à une IA plus ancrée dans le monde physique.
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.