ChatPaper.aiChatPaper

Визуальная пространственная настройка

Visual Spatial Tuning

November 7, 2025
Авторы: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI

Аннотация

Восприятие пространственных отношений из визуальных данных является краеугольным камнем человеко-подобного общего интеллекта. В нескольких предыдущих исследованиях предпринимались попытки улучшить пространственное восприятие моделей «визуальный язык» (Vision-Language Models, VLM) путем добавления дополнительных экспертных энкодеров, что влечет за собой дополнительные вычислительные затраты и часто ухудшает общие способности моделей. Чтобы повысить пространственные способности в рамках общих архитектур, мы представляем Visual Spatial Tuning (VST) — комплексную систему для развития у VLM человеко-подобных визуально-пространственных способностей, от восприятия до логического вывода. Мы сначала пытаемся улучшить пространственное восприятие в VLM, создав крупномасштабный набор данных под названием VST-P, который включает 4,1 миллиона примеров, охватывающих 19 навыков для одиночных изображений, множественных изображений и видео. Затем мы представляем VST-R — тщательно отобранный набор данных со 135 тысячами примеров, которые инструктируют модели рассуждать в пространстве. В частности, мы применяем прогрессивный конвейер обучения: контролируемое тонкое настройку для формирования базовых пространственных знаний с последующим обучением с подкреплением для дальнейшего улучшения способностей к пространственному reasoning. Без негативного влияния на общие возможности предложенный метод VST последовательно демонстрирует наилучшие результаты на нескольких пространственных бенчмарках, включая 34,8% на MMSI-Bench и 61,2% на VSIBench. Оказывается, что модели «визуальный язык-действие» (Vision-Language-Action) могут быть значительно улучшены с помощью предложенной парадигмы пространственной настройки, прокладывая путь к созданию более физически обоснованного искусственного интеллекта.
English
Capturing spatial relationships from visual inputs is a cornerstone of human-like general intelligence. Several previous studies have tried to enhance the spatial awareness of Vision-Language Models (VLMs) by adding extra expert encoders, which brings extra overhead and usually harms general capabilities. To enhance the spatial ability in general architectures, we introduce Visual Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with human-like visuospatial abilities, from spatial perception to reasoning. We first attempt to enhance spatial perception in VLMs by constructing a large-scale dataset termed VST-P, which comprises 4.1 million samples spanning 19 skills across single views, multiple images, and videos. Then, we present VST-R, a curated dataset with 135K samples that instruct models to reason in space. In particular, we adopt a progressive training pipeline: supervised fine-tuning to build foundational spatial knowledge, followed by reinforcement learning to further improve spatial reasoning abilities. Without the side-effect to general capabilities, the proposed VST consistently achieves state-of-the-art results on several spatial benchmarks, including 34.8% on MMSI-Bench and 61.2% on VSIBench. It turns out that the Vision-Language-Action models can be significantly enhanced with the proposed spatial tuning paradigm, paving the way for more physically grounded AI.
PDF492December 2, 2025