ChatPaper.aiChatPaper

시각 공간 주파수 조정

Visual Spatial Tuning

November 7, 2025
저자: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI

초록

시각 입력에서 공간 관계를 포착하는 것은 인간과 유사한 일반 지능의 핵심 요소입니다. 기존 여러 연구에서는 특화된 전문 인코더를 추가하여 Vision-Language 모델(VLM)의 공간 인식을 향상시키려 시도했으나, 이는 추가적인 부담을 주고 일반적인 능력을 저해하는 경우가 많았습니다. 일반적인 아키텍처에서 공간 능력을 강화하기 위해, 우리는 인간과 유사한 시공간 능력(공간 인지부터 추론까지)을 VLM에 함양시키는 포괄적인 프레임워크인 Visual Spatial Tuning(VST)을 소개합니다. 먼저 단일 뷰, 다중 이미지, 비디오에 걸친 19개 영역의 410만 개 샘플로 구성된 대규모 데이터셋 VST-P를 구축하여 VLM의 공간 인지 향상을 시도합니다. 다음으로, 모델이 공간적으로 추론하도록 지시하는 135,000개 샘플로 구성된 정제된 데이터셋 VST-R을 제시합니다. 특히 우리는 지도 미세 조정으로 기본적인 공간 지식을 구축한 후, 강화 학습을 통해 공간 추론 능력을 더욱 향상시키는 점진적인 학습 파이프라인을 채택합니다. 일반적인 능력에 부작용 없이, 제안된 VST는 MMSI-Bench에서 34.8%, VSIBench에서 61.2%를 포함한 여러 공간 벤치마크에서 최첨단 성능을 일관되게 달성합니다. 제안된 공간 튜닝 패러다임을 통해 Vision-Language-Action 모델이 크게 향상될 수 있음이 입증되어, 보다 물리적으로 근거 있는 AI 발전의 길을 열었습니다.
English
Capturing spatial relationships from visual inputs is a cornerstone of human-like general intelligence. Several previous studies have tried to enhance the spatial awareness of Vision-Language Models (VLMs) by adding extra expert encoders, which brings extra overhead and usually harms general capabilities. To enhance the spatial ability in general architectures, we introduce Visual Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with human-like visuospatial abilities, from spatial perception to reasoning. We first attempt to enhance spatial perception in VLMs by constructing a large-scale dataset termed VST-P, which comprises 4.1 million samples spanning 19 skills across single views, multiple images, and videos. Then, we present VST-R, a curated dataset with 135K samples that instruct models to reason in space. In particular, we adopt a progressive training pipeline: supervised fine-tuning to build foundational spatial knowledge, followed by reinforcement learning to further improve spatial reasoning abilities. Without the side-effect to general capabilities, the proposed VST consistently achieves state-of-the-art results on several spatial benchmarks, including 34.8% on MMSI-Bench and 61.2% on VSIBench. It turns out that the Vision-Language-Action models can be significantly enhanced with the proposed spatial tuning paradigm, paving the way for more physically grounded AI.
PDF492December 2, 2025