La Optimización de Preferencias de Grano Fino Mejora el Razonamiento Espacial en los Modelos de Lenguaje Visual.

Resumen

Los modelos actuales de visión y lenguaje (VLMs) enfrentan dificultades en el razonamiento espacial de grano fino, especialmente cuando se requiere lógica de múltiples pasos y alineación espacial precisa. En este trabajo, presentamos SpatialReasoner-R1, un modelo de razonamiento visión-lenguaje diseñado para abordar estas limitaciones. Para construir una supervisión de alta calidad para el razonamiento espacial, diseñamos un método de Búsqueda en Árbol de Monte Carlo Multi-Modelo (M3CTS) que genera trayectorias de razonamiento diversas y lógicamente consistentes, denominadas Cadena de Pensamiento Larga (LongCoT). Además, proponemos una Optimización Directa de Preferencias de Grano Fino (fDPO), que introduce una granularidad de preferencias específica por segmentos para la fundamentación descriptiva y el razonamiento lógico, guiada por un mecanismo de recompensa espacial que evalúa las respuestas candidatas en función de la consistencia visual, la fundamentación espacial y la coherencia lógica. Los resultados experimentales demuestran que fDPO logra una mejora promedio del 4.1% sobre la DPO estándar en tareas de calidad espacial, y un aumento del 9.0% en tareas de cantidad espacial. SpatialReasoner-R1, entrenado con fDPO, establece un nuevo estado del arte en SPATIALRGPT-Bench, superando al mejor modelo de referencia en un 9.8% en precisión promedio, mientras mantiene un rendimiento competitivo en tareas generales de visión y lenguaje.

English

Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.

La Optimización de Preferencias de Grano Fino Mejora el Razonamiento Espacial en los Modelos de Lenguaje Visual.

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Resumen

Support