L'optimisation fine des préférences améliore le raisonnement spatial dans les modèles de langage visuel.

Résumé

Les modèles actuels de vision et langage (VLMs) rencontrent des difficultés dans le raisonnement spatial à granularité fine, en particulier lorsque des étapes logiques multiples et un alignement spatial précis sont nécessaires. Dans ce travail, nous présentons SpatialReasoner-R1, un modèle de raisonnement vision-langage conçu pour surmonter ces limitations. Pour construire une supervision de haute qualité pour le raisonnement spatial, nous concevons une méthode de recherche arborescente Monte Carlo multi-modèle (M3CTS) qui génère des trajectoires de raisonnement Long Chain-of-Thought (LongCoT) diversifiées et logiquement cohérentes. De plus, nous proposons une optimisation fine des préférences directes (fDPO), qui introduit une granularité spécifique aux segments pour l'ancrage descriptif et le raisonnement logique, guidée par un mécanisme de récompense spatiale qui évalue les réponses candidates en fonction de la cohérence visuelle, de l'ancrage spatial et de la cohérence logique. Les résultats expérimentaux montrent que fDPO améliore en moyenne de 4,1 % par rapport à la DPO standard dans les tâches de qualité spatiale, et de 9,0 % dans les tâches de quantité spatiale. SpatialReasoner-R1, entraîné avec fDPO, établit un nouveau record sur SPATIALRGPT-Bench, surpassant le meilleur modèle de référence de 9,8 % en précision moyenne, tout en maintenant des performances compétitives dans les tâches générales de vision et langage.

English

Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.

L'optimisation fine des préférences améliore le raisonnement spatial dans les modèles de langage visuel.

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Résumé

Support