Sintonía Visuoespacial
Visual Spatial Tuning
November 7, 2025
Autores: Rui Yang, Ziyu Zhu, Yanwei Li, Jingjia Huang, Shen Yan, Siyuan Zhou, Zhe Liu, Xiangtai Li, Shuangye Li, Wenqian Wang, Yi Lin, Hengshuang Zhao
cs.AI
Resumen
La captura de relaciones espaciales a partir de entradas visuales es un pilar fundamental de la inteligencia general similar a la humana. Varios estudios anteriores han intentado mejorar la conciencia espacial de los Modelos de Visión y Lenguaje (VLM) añadiendo codificadores expertos adicionales, lo que genera sobrecarga computacional y generalmente perjudica las capacidades generales. Para mejorar la habilidad espacial en arquitecturas generales, presentamos Sintonización Visual Espacial (VST), un marco integral para dotar a los VLM de capacidades visoespaciales similares a las humanas, desde la percepción hasta el razonamiento espacial. Primero intentamos mejorar la percepción espacial en los VLM construyendo un conjunto de datos a gran escala denominado VST-P, que comprende 4.1 millones de muestras abarcando 19 habilidades a través de vistas únicas, imágenes múltiples y videos. Luego, presentamos VST-R, un conjunto de datos curado con 135K muestras que instruyen a los modelos para razonar en el espacio. En particular, adoptamos un pipeline de entrenamiento progresivo: ajuste fino supervisado para construir conocimiento espacial fundamental, seguido de aprendizaje por refuerzo para mejorar aún más las habilidades de razonamiento espacial. Sin efectos secundarios en las capacidades generales, el VST propuesto logra consistentemente resultados de vanguardia en varios benchmarks espaciales, incluyendo 34.8% en MMSI-Bench y 61.2% en VSIBench. Se demuestra que los Modelos de Visión-Lenguaje-Acción pueden mejorarse significativamente con el paradigma de sintonización espacial propuesto, allanando el camino para una IA más fundamentada físicamente.
English
Capturing spatial relationships from visual inputs is a cornerstone of
human-like general intelligence. Several previous studies have tried to enhance
the spatial awareness of Vision-Language Models (VLMs) by adding extra expert
encoders, which brings extra overhead and usually harms general capabilities.
To enhance the spatial ability in general architectures, we introduce Visual
Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with
human-like visuospatial abilities, from spatial perception to reasoning. We
first attempt to enhance spatial perception in VLMs by constructing a
large-scale dataset termed VST-P, which comprises 4.1 million samples spanning
19 skills across single views, multiple images, and videos. Then, we present
VST-R, a curated dataset with 135K samples that instruct models to reason in
space. In particular, we adopt a progressive training pipeline: supervised
fine-tuning to build foundational spatial knowledge, followed by reinforcement
learning to further improve spatial reasoning abilities. Without the
side-effect to general capabilities, the proposed VST consistently achieves
state-of-the-art results on several spatial benchmarks, including 34.8% on
MMSI-Bench and 61.2% on VSIBench. It turns out that the
Vision-Language-Action models can be significantly enhanced with the proposed
spatial tuning paradigm, paving the way for more physically grounded AI.