ChatPaper.aiChatPaper

Оптимизация тонких предпочтений улучшает пространственное мышление в моделях визуального языка

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

June 26, 2025
Авторы: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI

Аннотация

Современные модели обработки зрения и языка (Vision-Language Models, VLMs) испытывают трудности с тонким пространственным рассуждением, особенно когда требуются многошаговая логика и точное пространственное выравнивание. В данной работе мы представляем SpatialReasoner-R1, модель рассуждений, объединяющую зрение и язык, разработанную для преодоления этих ограничений. Для создания высококачественного обучающего материала для пространственного рассуждения мы разработали метод Монте-Карло дерева поиска с использованием нескольких моделей (Multi-Model Monte Carlo Tree Search, M3CTS), который генерирует разнообразные, логически согласованные траектории рассуждений с длинной цепочкой мыслей (Long Chain-of-Thought, LongCoT). Кроме того, мы предлагаем метод тонкой оптимизации прямых предпочтений (fine-grained Direct Preference Optimization, fDPO), который вводит сегментно-специфичную гранулярность предпочтений для описательного обоснования и логического рассуждения, руководствуясь пространственным механизмом вознаграждения, оценивающим кандидатные ответы на основе визуальной согласованности, пространственного обоснования и логической связности. Экспериментальные результаты показывают, что fDPO обеспечивает среднее улучшение на 4,1% по сравнению со стандартным DPO в задачах оценки пространственного качества и на 9,0% в задачах оценки пространственного количества. Модель SpatialReasoner-R1, обученная с использованием fDPO, устанавливает новый рекорд на бенчмарке SPATIALRGPT-Bench, превосходя самый сильный базовый уровень на 9,8% по средней точности, сохраняя при этом конкурентоспособные результаты в общих задачах обработки зрения и языка.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.
PDF101June 30, 2025