L'optimisation fine des préférences améliore le raisonnement spatial dans les modèles de langage visuel.
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs
June 26, 2025
Auteurs: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI
Résumé
Les modèles actuels de vision et langage (VLMs) rencontrent des difficultés dans le raisonnement spatial à granularité fine, en particulier lorsque des étapes logiques multiples et un alignement spatial précis sont nécessaires. Dans ce travail, nous présentons SpatialReasoner-R1, un modèle de raisonnement vision-langage conçu pour surmonter ces limitations. Pour construire une supervision de haute qualité pour le raisonnement spatial, nous concevons une méthode de recherche arborescente Monte Carlo multi-modèle (M3CTS) qui génère des trajectoires de raisonnement Long Chain-of-Thought (LongCoT) diversifiées et logiquement cohérentes. De plus, nous proposons une optimisation fine des préférences directes (fDPO), qui introduit une granularité spécifique aux segments pour l'ancrage descriptif et le raisonnement logique, guidée par un mécanisme de récompense spatiale qui évalue les réponses candidates en fonction de la cohérence visuelle, de l'ancrage spatial et de la cohérence logique. Les résultats expérimentaux montrent que fDPO améliore en moyenne de 4,1 % par rapport à la DPO standard dans les tâches de qualité spatiale, et de 9,0 % dans les tâches de quantité spatiale. SpatialReasoner-R1, entraîné avec fDPO, établit un nouveau record sur SPATIALRGPT-Bench, surpassant le meilleur modèle de référence de 9,8 % en précision moyenne, tout en maintenant des performances compétitives dans les tâches générales de vision et langage.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial
reasoning, particularly when multi-step logic and precise spatial alignment are
required. In this work, we introduce SpatialReasoner-R1, a vision-language
reasoning model designed to address these limitations. To construct
high-quality supervision for spatial reasoning, we design a Multi-Model Monte
Carlo Tree Search (M3CTS) method that generates diverse, logically consistent
Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose
fine-grained Direct Preference Optimization (fDPO), which introduces
segment-specific preference granularity for descriptive grounding and logical
reasoning, guided by a spatial reward mechanism that evaluates candidate
responses based on visual consistency, spatial grounding, and logical
coherence. Experimental results demonstrate that fDPO achieves an average
improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0%
gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a
new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in
average accuracy, while maintaining competitive performance on general
vision-language tasks.