Sintonía Visuoespacial

Resumen

La captura de relaciones espaciales a partir de entradas visuales es un pilar fundamental de la inteligencia general similar a la humana. Varios estudios anteriores han intentado mejorar la conciencia espacial de los Modelos de Visión y Lenguaje (VLM) añadiendo codificadores expertos adicionales, lo que genera sobrecarga computacional y generalmente perjudica las capacidades generales. Para mejorar la habilidad espacial en arquitecturas generales, presentamos Sintonización Visual Espacial (VST), un marco integral para dotar a los VLM de capacidades visoespaciales similares a las humanas, desde la percepción hasta el razonamiento espacial. Primero intentamos mejorar la percepción espacial en los VLM construyendo un conjunto de datos a gran escala denominado VST-P, que comprende 4.1 millones de muestras abarcando 19 habilidades a través de vistas únicas, imágenes múltiples y videos. Luego, presentamos VST-R, un conjunto de datos curado con 135K muestras que instruyen a los modelos para razonar en el espacio. En particular, adoptamos un pipeline de entrenamiento progresivo: ajuste fino supervisado para construir conocimiento espacial fundamental, seguido de aprendizaje por refuerzo para mejorar aún más las habilidades de razonamiento espacial. Sin efectos secundarios en las capacidades generales, el VST propuesto logra consistentemente resultados de vanguardia en varios benchmarks espaciales, incluyendo 34.8% en MMSI-Bench y 61.2% en VSIBench. Se demuestra que los Modelos de Visión-Lenguaje-Acción pueden mejorarse significativamente con el paradigma de sintonización espacial propuesto, allanando el camino para una IA más fundamentada físicamente.

English

Capturing spatial relationships from visual inputs is a cornerstone of human-like general intelligence. Several previous studies have tried to enhance the spatial awareness of Vision-Language Models (VLMs) by adding extra expert encoders, which brings extra overhead and usually harms general capabilities. To enhance the spatial ability in general architectures, we introduce Visual Spatial Tuning (VST), a comprehensive framework to cultivate VLMs with human-like visuospatial abilities, from spatial perception to reasoning. We first attempt to enhance spatial perception in VLMs by constructing a large-scale dataset termed VST-P, which comprises 4.1 million samples spanning 19 skills across single views, multiple images, and videos. Then, we present VST-R, a curated dataset with 135K samples that instruct models to reason in space. In particular, we adopt a progressive training pipeline: supervised fine-tuning to build foundational spatial knowledge, followed by reinforcement learning to further improve spatial reasoning abilities. Without the side-effect to general capabilities, the proposed VST consistently achieves state-of-the-art results on several spatial benchmarks, including 34.8% on MMSI-Bench and 61.2% on VSIBench. It turns out that the Vision-Language-Action models can be significantly enhanced with the proposed spatial tuning paradigm, paving the way for more physically grounded AI.