Visuell-räumliche Abstimmung
Visual Spatial Tuning
November 7, 2025
papers.authors: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
papers.abstract
Das Erfassen räumlicher Beziehungen aus visuellen Eingaben ist ein Grundpfeiler menschlicher Allgemeinintelligenz. Bisherige Studien haben häufig versucht, das räumliche Bewusstsein von Vision-Language-Modellen (VLMs) durch zusätzliche Experten-Encoder zu verbessern, was jedoch zusätzlichen Aufwand verursacht und meist die allgemeinen Fähigkeiten beeinträchtigt. Um räumliche Fähigkeiten in allgemeinen Architekturen zu stärken, stellen wir Visual Spatial Tuning (VST) vor – ein umfassendes Framework zur Entwicklung von VLMs mit menschlichen visuell-räumlichen Fähigkeiten, von der Wahrnehmung bis zum Schlussfolgern. Wir verbessern zunächst die räumliche Wahrnehmung in VLMs durch die Erstellung eines groß angelegten Datensatzes namens VST-P, der 4,1 Millionen Samples umfasst, die 19 Fähigkeiten über Einzelansichten, mehrere Bilder und Videos abdecken. Anschließend präsentieren wir VST-R, einen kuratierten Datensatz mit 135.000 Samples, der Modelle zum räumlichen Denken anleitet. Dabei verwenden wir eine progressive Trainingspipeline: überwachtes Feintuning zum Aufbau grundlegender räumlicher Kenntnisse, gefolgt von bestärkendem Lernen zur weiteren Steigerung der räumlichen Denkfähigkeiten. Ohne negative Auswirkungen auf allgemeine Fähigkeiten erzielt VST durchgängig state-of-the-art Ergebnisse auf mehreren räumlichen Benchmarks, darunter 34,8 % auf MMSI-Bench und 61,2 % auf VSIBench. Die Ergebnisse zeigen, dass Vision-Language-Action-Modelle durch das vorgeschlagene räumliche Tuning-Paradigma signifikant verbessert werden können, was den Weg für eine stärker physikalisch verankerte KI ebnet.
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.