ChatPaper.aiChatPaper

A Otimização de Preferências de Alto Nível Melhora o Raciocínio Espacial em Modelos de Linguagem Visual

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

June 26, 2025
Autores: Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou
cs.AI

Resumo

Os modelos atuais de Visão e Linguagem (VLMs) enfrentam dificuldades com o raciocínio espacial de alta granularidade, especialmente quando são necessárias lógicas de múltiplos passos e alinhamento espacial preciso. Neste trabalho, apresentamos o SpatialReasoner-R1, um modelo de raciocínio visão-linguagem projetado para superar essas limitações. Para construir supervisão de alta qualidade para o raciocínio espacial, desenvolvemos um método de Busca em Árvore de Monte Carlo Multi-Modelo (M3CTS) que gera trajetórias de raciocínio Long Chain-of-Thought (LongCoT) diversas e logicamente consistentes. Além disso, propomos a Otimização de Preferência Direta de Alta Granularidade (fDPO), que introduz granularidade específica por segmento para fundamentação descritiva e raciocínio lógico, guiada por um mecanismo de recompensa espacial que avalia respostas candidatas com base em consistência visual, fundamentação espacial e coerência lógica. Os resultados experimentais demonstram que o fDPO alcança uma melhoria média de 4,1% em relação ao DPO padrão em tarefas de qualidade espacial, e um ganho de 9,0% em tarefas de quantidade espacial. O SpatialReasoner-R1, treinado com fDPO, estabelece um novo estado da arte no SPATIALRGPT-Bench, superando a linha de base mais forte em 9,8% em precisão média, enquanto mantém desempenho competitivo em tarefas gerais de visão e linguagem.
English
Current Vision-Language Models (VLMs) struggle with fine-grained spatial reasoning, particularly when multi-step logic and precise spatial alignment are required. In this work, we introduce SpatialReasoner-R1, a vision-language reasoning model designed to address these limitations. To construct high-quality supervision for spatial reasoning, we design a Multi-Model Monte Carlo Tree Search (M3CTS) method that generates diverse, logically consistent Long Chain-of-Thought (LongCoT) reasoning trajectories. In addition, we propose fine-grained Direct Preference Optimization (fDPO), which introduces segment-specific preference granularity for descriptive grounding and logical reasoning, guided by a spatial reward mechanism that evaluates candidate responses based on visual consistency, spatial grounding, and logical coherence. Experimental results demonstrate that fDPO achieves an average improvement of 4.1% over standard DPO across spatial quality tasks, and a 9.0% gain in spatial quantity tasks. SpatialReasoner-R1, trained with fDPO, sets a new SoTA on SPATIALRGPT-Bench, outperforming the strongest baseline by 9.8% in average accuracy, while maintaining competitive performance on general vision-language tasks.
PDF141June 30, 2025