Sintonização Visual Espacial
Visual Spatial Tuning
November 7, 2025
Autores: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
Resumo
A captura de relações espaciais a partir de entradas visuais é um pilar fundamental da inteligência geral semelhante à humana. Vários estudos anteriores tentaram melhorar a consciência espacial de Modelos de Visão e Linguagem (VLMs) adicionando codificadores especializados extras, o que acarreta sobrecarga adicional e geralmente prejudica as capacidades gerais. Para aprimorar a habilidade espacial em arquiteturas gerais, introduzimos o Ajuste Espacial Visual (VST), um framework abrangente para cultivar VLMs com habilidades visuoespaciais humanoides, desde a percepção espacial até o raciocínio. Primeiro, tentamos melhorar a percepção espacial em VLMs construindo um grande conjunto de dados denominado VST-P, que compreende 4,1 milhões de amostras abrangendo 19 habilidades em visões únicas, múltiplas imagens e vídeos. Em seguida, apresentamos o VST-R, um conjunto de dados curado com 135 mil amostras que instruem os modelos a raciocinar no espaço. Em particular, adotamos um pipeline de treinamento progressivo: ajuste fino supervisionado para construir conhecimento espacial fundamental, seguido de aprendizado por reforço para melhorar ainda mais as habilidades de raciocínio espacial. Sem o efeito colateral nas capacidades gerais, o VST proposto alcança consistentemente resultados state-of-the-art em vários benchmarks espaciais, incluindo 34,8% no MMSI-Bench e 61,2% no VSIBench. Demonstra-se que os Modelos de Visão-Linguagem-Ação podem ser significativamente aprimorados com o paradigma de ajuste espacial proposto, abrindo caminho para uma IA mais fundamentada fisicamente.
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.