La Optimización de Preferencias de Grano Fino Mejora el Razonamiento Espacial en los Modelos de Lenguaje Visual.
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs
June 26, 2025
Autores: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI
Resumen
Los modelos actuales de visión y lenguaje (VLMs) enfrentan dificultades en el razonamiento espacial de grano fino, especialmente cuando se requiere lógica de múltiples pasos y alineación espacial precisa. En este trabajo, presentamos SpatialReasoner-R1, un modelo de razonamiento visión-lenguaje diseñado para abordar estas limitaciones. Para construir una supervisión de alta calidad para el razonamiento espacial, diseñamos un método de Búsqueda en Árbol de Monte Carlo Multi-Modelo (M3CTS) que genera trayectorias de razonamiento diversas y lógicamente consistentes, denominadas Cadena de Pensamiento Larga (LongCoT). Además, proponemos una Optimización Directa de Preferencias de Grano Fino (fDPO), que introduce una granularidad de preferencias específica por segmentos para la fundamentación descriptiva y el razonamiento lógico, guiada por un mecanismo de recompensa espacial que evalúa las respuestas candidatas en función de la consistencia visual, la fundamentación espacial y la coherencia lógica. Los resultados experimentales demuestran que fDPO logra una mejora promedio del 4.1% sobre la DPO estándar en tareas de calidad espacial, y un aumento del 9.0% en tareas de cantidad espacial. SpatialReasoner-R1, entrenado con fDPO, establece un nuevo estado del arte en SPATIALRGPT-Bench, superando al mejor modelo de referencia en un 9.8% en precisión promedio, mientras mantiene un rendimiento competitivo en tareas generales de visión y lenguaje.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial
reasoning, particularly when multi-step logic and precise spatial alignment are
required. In this work, we introduce SpatialReasoner-R1, a vision-language
reasoning model designed to address these limitations. To construct
high-quality supervision for spatial reasoning, we design a Multi-Model Monte
Carlo Tree Search (M3CTS) method that generates diverse, logically consistent
Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose
fine-grained Direct Preference Optimization (fDPO), which introduces
segment-specific preference granularity for descriptive grounding and logical
reasoning, guided by a spatial reward mechanism that evaluates candidate
responses based on visual consistency, spatial grounding, and logical
coherence. Experimental results demonstrate that fDPO achieves an average
improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0%
gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a
new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in
average accuracy, while maintaining competitive performance on general
vision-language tasks.