L'ottimizzazione delle preferenze a grana fine migliora il ragionamento spaziale nei modelli di visione e linguaggio (VLMs).
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs
June 26, 2025
Autori: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) attuali presentano difficoltà nel ragionamento spaziale fine, in particolare quando sono richiesti una logica multi-step e un allineamento spaziale preciso. In questo lavoro, introduciamo SpatialReasoner-R1, un modello di ragionamento visione-linguaggio progettato per affrontare queste limitazioni. Per costruire una supervisione di alta qualità per il ragionamento spaziale, abbiamo sviluppato un metodo Multi-Model Monte Carlo Tree Search (M3CTS) che genera traiettorie di ragionamento Long Chain-of-Thought (LongCoT) diverse e logicamente consistenti. Inoltre, proponiamo il fine-grained Direct Preference Optimization (fDPO), che introduce una granularità specifica per segmenti nelle preferenze per il grounding descrittivo e il ragionamento logico, guidato da un meccanismo di ricompensa spaziale che valuta le risposte candidate in base alla coerenza visiva, al grounding spaziale e alla coerenza logica. I risultati sperimentali dimostrano che fDPO ottiene un miglioramento medio del 4,1% rispetto al DPO standard nei compiti di qualità spaziale e un guadagno del 9,0% nei compiti di quantità spaziale. SpatialReasoner-R1, addestrato con fDPO, stabilisce un nuovo stato dell'arte su SPATIALRGPT-Bench, superando il baseline più forte del 9,8% in accuratezza media, mantenendo al contempo prestazioni competitive nei compiti generali di visione-linguaggio.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial
reasoning, particularly when multi-step logic and precise spatial alignment are
required. In this work, we introduce SpatialReasoner-R1, a vision-language
reasoning model designed to address these limitations. To construct
high-quality supervision for spatial reasoning, we design a Multi-Model Monte
Carlo Tree Search (M3CTS) method that generates diverse, logically consistent
Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose
fine-grained Direct Preference Optimization (fDPO), which introduces
segment-specific preference granularity for descriptive grounding and logical
reasoning, guided by a spatial reward mechanism that evaluates candidate
responses based on visual consistency, spatial grounding, and logical
coherence. Experimental results demonstrate that fDPO achieves an average
improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0%
gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a
new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in
average accuracy, while maintaining competitive performance on general
vision-language tasks.