ChatPaper.aiChatPaper

Fein abgestimmte Präferenzoptimierung verbessert das räumliche Denken in visuell-sprachlichen Modellen.

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

June 26, 2025
Autoren: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI

Zusammenfassung

Aktuelle Vision-Language-Modelle (VLMs) haben Schwierigkeiten mit feinkörnigem räumlichem Denken, insbesondere wenn mehrstufige Logik und präzise räumliche Ausrichtung erforderlich sind. In dieser Arbeit stellen wir SpatialReasoner-R1 vor, ein Vision-Language-Reasoning-Modell, das entwickelt wurde, um diese Einschränkungen zu überwinden. Um hochwertige Supervision für räumliches Denken zu konstruieren, entwickeln wir eine Multi-Model Monte Carlo Tree Search (M3CTS)-Methode, die diverse, logisch konsistente Long Chain-of-Thought (LongCoT)-Reasoning-Trajektorien erzeugt. Zusätzlich schlagen wir feinkörnige Direct Preference Optimization (fDPO) vor, die segmentspezifische Präferenzgranularität für deskriptive Verankerung und logisches Denken einführt, geleitet von einem räumlichen Belohnungsmechanismus, der Kandidatenantworten basierend auf visueller Konsistenz, räumlicher Verankerung und logischer Kohärenz bewertet. Experimentelle Ergebnisse zeigen, dass fDPO eine durchschnittliche Verbesserung von 4,1 % gegenüber Standard-DPO bei räumlichen Qualitätsaufgaben und einen Zuwachs von 9,0 % bei räumlichen Quantitätsaufgaben erzielt. SpatialReasoner-R1, das mit fDPO trainiert wurde, setzt einen neuen State-of-the-Art (SoTA) auf dem SPATIALRGPT-Bench, indem es den stärksten Baseline-Wert um 9,8 % in der durchschnittlichen Genauigkeit übertrifft, während es gleichzeitig wettbewerbsfähige Leistung bei allgemeinen Vision-Language-Aufgaben beibehält.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.
PDF101June 30, 2025