Hacer que la geometría importe para el razonamiento espacial

Resumen

Impulsados por el entrenamiento a gran escala, los modelos de visión y lenguaje (VLMs) logran una sólida comprensión de imágenes y videos, aunque su capacidad para realizar razonamiento espacial tanto en escenas estáticas como en videos dinámicos sigue siendo limitada. Avances recientes intentan abordar esta limitación inyectando tokens geométricos de modelos fundamentales 3D preentrenados en los VLMs. Sin embargo, observamos que la fusión ingenua de tokens seguida de un ajuste fino estándar en esta línea de trabajo a menudo deja estas pistas geométricas subutilizadas para el razonamiento espacial, ya que los VLMs tienden a depender en gran medida de pistas visuales 2D. En este artículo, proponemos GeoSR, un marco diseñado para hacer que la geometría importe al incentivar a los VLMs a razonar activamente con tokens geométricos. GeoSR introduce dos componentes clave: (1) Enmascaramiento de Liberación de Geometría, que enmascara estratégicamente porciones de los tokens visuales 2D durante el entrenamiento para debilitar los atajos no geométricos y forzar al modelo a consultar los tokens geométricos para el razonamiento espacial; y (2) Fusión Guiada por Geometría, un mecanismo de enrutamiento por compuerta que amplifica adaptativamente las contribuciones de los tokens geométricos en regiones donde la evidencia geométrica es crítica. En conjunto, estos diseños liberan el potencial de los tokens geométricos para tareas de razonamiento espacial. Experimentos exhaustivos en puntos de referencia de razonamiento espacial estático y dinámico demuestran que GeoSR supera consistentemente a métodos anteriores y establece un nuevo estado del arte al aprovechar eficazmente la información geométrica. La página del proyecto está disponible en https://suhzhang.github.io/GeoSR/.

English

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.

Hacer que la geometría importe para el razonamiento espacial

Make Geometry Matter for Spatial Reasoning

Resumen

Support