Fein abgestimmte Präferenzoptimierung verbessert das räumliche Denken in visuell-sprachlichen Modellen.
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs
June 26, 2025
Autoren: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI
Zusammenfassung
Aktuelle Vision-Language-Modelle (VLMs) haben Schwierigkeiten mit feinkörnigem räumlichem Denken, insbesondere wenn mehrstufige Logik und präzise räumliche Ausrichtung erforderlich sind. In dieser Arbeit stellen wir SpatialReasoner-R1 vor, ein Vision-Language-Reasoning-Modell, das entwickelt wurde, um diese Einschränkungen zu überwinden. Um hochwertige Supervision für räumliches Denken zu konstruieren, entwickeln wir eine Multi-Model Monte Carlo Tree Search (M3CTS)-Methode, die diverse, logisch konsistente Long Chain-of-Thought (LongCoT)-Reasoning-Trajektorien erzeugt. Zusätzlich schlagen wir feinkörnige Direct Preference Optimization (fDPO) vor, die segmentspezifische Präferenzgranularität für deskriptive Verankerung und logisches Denken einführt, geleitet von einem räumlichen Belohnungsmechanismus, der Kandidatenantworten basierend auf visueller Konsistenz, räumlicher Verankerung und logischer Kohärenz bewertet. Experimentelle Ergebnisse zeigen, dass fDPO eine durchschnittliche Verbesserung von 4,1 % gegenüber Standard-DPO bei räumlichen Qualitätsaufgaben und einen Zuwachs von 9,0 % bei räumlichen Quantitätsaufgaben erzielt. SpatialReasoner-R1, das mit fDPO trainiert wurde, setzt einen neuen State-of-the-Art (SoTA) auf dem SPATIALRGPT-Bench, indem es den stärksten Baseline-Wert um 9,8 % in der durchschnittlichen Genauigkeit übertrifft, während es gleichzeitig wettbewerbsfähige Leistung bei allgemeinen Vision-Language-Aufgaben beibehält.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial
reasoning, particularly when multi-step logic and precise spatial alignment are
required. In this work, we introduce SpatialReasoner-R1, a vision-language
reasoning model designed to address these limitations. To construct
high-quality supervision for spatial reasoning, we design a Multi-Model Monte
Carlo Tree Search (M3CTS) method that generates diverse, logically consistent
Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose
fine-grained Direct Preference Optimization (fDPO), which introduces
segment-specific preference granularity for descriptive grounding and logical
reasoning, guided by a spatial reward mechanism that evaluates candidate
responses based on visual consistency, spatial grounding, and logical
coherence. Experimental results demonstrate that fDPO achieves an average
improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0%
gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a
new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in
average accuracy, while maintaining competitive performance on general
vision-language tasks.