Fijnmazige Voorkeuroptimalisatie Verbeterd Ruimtelijk Redeneren in VLMs
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs
June 26, 2025
Auteurs: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI
Samenvatting
Huidige Vision-Language Models (VLMs) hebben moeite met fijnmazig ruimtelijk redeneren, vooral wanneer multi-staps logica en precieze ruimtelijke uitlijning vereist zijn. In dit werk introduceren we SpatialReasoner-R1, een vision-language redeneermodel dat ontworpen is om deze beperkingen aan te pakken. Om hoogwaardige supervisie voor ruimtelijk redeneren te creëren, ontwikkelen we een Multi-Model Monte Carlo Tree Search (M3CTS) methode die diverse, logisch consistente Long Chain-of-Thought (LongCoT) redeneertrajecten genereert. Daarnaast stellen we fijnmazige Direct Preference Optimization (fDPO) voor, dat segment-specifieke voorkeursgranulariteit introduceert voor beschrijvende verankering en logisch redeneren, geleid door een ruimtelijk beloningsmechanisme dat kandidaatreacties evalueert op basis van visuele consistentie, ruimtelijke verankering en logische samenhang. Experimentele resultaten tonen aan dat fDPO een gemiddelde verbetering van 4,1% behaalt ten opzichte van standaard DPO bij ruimtelijke kwaliteitstaken, en een winst van 9,0% bij ruimtelijke kwantiteitstaken. SpatialReasoner-R1, getraind met fDPO, vestigt een nieuwe state-of-the-art (SoTA) op SPATIALRGPT-Bench, waarbij het de sterkste baseline met 9,8% in gemiddelde nauwkeurigheid overtreft, terwijl het competitieve prestaties behoudt op algemene vision-language taken.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial
reasoning, particularly when multi-step logic and precise spatial alignment are
required. In this work, we introduce SpatialReasoner-R1, a vision-language
reasoning model designed to address these limitations. To construct
high-quality supervision for spatial reasoning, we design a Multi-Model Monte
Carlo Tree Search (M3CTS) method that generates diverse, logically consistent
Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose
fine-grained Direct Preference Optimization (fDPO), which introduces
segment-specific preference granularity for descriptive grounding and logical
reasoning, guided by a spatial reward mechanism that evaluates candidate
responses based on visual consistency, spatial grounding, and logical
coherence. Experimental results demonstrate that fDPO achieves an average
improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0%
gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a
new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in
average accuracy, while maintaining competitive performance on general
vision-language tasks.