Fijnmazige Voorkeuroptimalisatie Verbeterd Ruimtelijk Redeneren in VLMs

Samenvatting

Huidige Vision-Language Models (VLMs) hebben moeite met fijnmazig ruimtelijk redeneren, vooral wanneer multi-staps logica en precieze ruimtelijke uitlijning vereist zijn. In dit werk introduceren we SpatialReasoner-R1, een vision-language redeneermodel dat ontworpen is om deze beperkingen aan te pakken. Om hoogwaardige supervisie voor ruimtelijk redeneren te creëren, ontwikkelen we een Multi-Model Monte Carlo Tree Search (M3CTS) methode die diverse, logisch consistente Long Chain-of-Thought (LongCoT) redeneertrajecten genereert. Daarnaast stellen we fijnmazige Direct Preference Optimization (fDPO) voor, dat segment-specifieke voorkeursgranulariteit introduceert voor beschrijvende verankering en logisch redeneren, geleid door een ruimtelijk beloningsmechanisme dat kandidaatreacties evalueert op basis van visuele consistentie, ruimtelijke verankering en logische samenhang. Experimentele resultaten tonen aan dat fDPO een gemiddelde verbetering van 4,1% behaalt ten opzichte van standaard DPO bij ruimtelijke kwaliteitstaken, en een winst van 9,0% bij ruimtelijke kwantiteitstaken. SpatialReasoner-R1, getraind met fDPO, vestigt een nieuwe state-of-the-art (SoTA) op SPATIALRGPT-Bench, waarbij het de sterkste baseline met 9,8% in gemiddelde nauwkeurigheid overtreft, terwijl het competitieve prestaties behoudt op algemene vision-language taken.

English

Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.

Fijnmazige Voorkeuroptimalisatie Verbeterd Ruimtelijk Redeneren in VLMs

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Samenvatting

Support