ChatPaper.aiChatPaper

세밀한 선호도 최적화가 시각-언어 모델의 공간 추론 능력을 향상시킨다

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

June 26, 2025
저자: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI

초록

현재의 시각-언어 모델(VLMs)은 특히 다단계 논리와 정밀한 공간 정렬이 요구되는 미세한 공간 추론에서 어려움을 겪고 있다. 본 연구에서는 이러한 한계를 해결하기 위해 설계된 시각-언어 추론 모델인 SpatialReasoner-R1을 소개한다. 고품질의 공간 추론 지도를 구축하기 위해, 우리는 다양한 논리적으로 일관된 장기 사고 사슬(Long Chain-of-Thought, LongCoT) 추론 궤적을 생성하는 다중 모델 몬테카를로 트리 탐색(Multi-Model Monte Carlo Tree Search, M3CTS) 방법을 설계하였다. 또한, 시각적 일관성, 공간 정착, 논리적 일관성을 기반으로 후보 응답을 평가하는 공간 보상 메커니즘의 지도 하에, 기술적 근거와 논리적 추론을 위한 세그먼트별 선호도 세분화를 도입한 미세 직접 선호 최적화(fine-grained Direct Preference Optimization, fDPO)를 제안한다. 실험 결과, fDPO는 공간 품질 작업에서 표준 DPO 대비 평균 4.1%의 개선을 달성했으며, 공간 양 작업에서는 9.0%의 향상을 보였다. fDPO로 훈련된 SpatialReasoner-R1은 SPATIALRGPT-Bench에서 새로운 최첨단 기술(SoTA)을 설정하며, 가장 강력한 기준선 대비 평균 정확도에서 9.8% 우수한 성능을 보였고, 일반 시각-언어 작업에서도 경쟁력 있는 성능을 유지하였다.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.
PDF101June 30, 2025