Reforçando o Raciocínio de Dupla Via em Modelos de Visão e Linguagem Espaciais
Reinforcing Dual-Path Reasoning in Spatial Vision Language Models
June 16, 2026
Autores: Yatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu
cs.AI
Resumo
VLMs espaciais fizeram progressos substanciais na percepção geométrica, mas o raciocínio espacial complexo, que requer inferência em múltiplas etapas sobre profundidade, distância e relações de cena, continua desafiador. Além disso, diferentes consultas espaciais exigem estratégias fundamentalmente distintas: algumas são melhor abordadas por meio de dedução puramente linguística, passo a passo, enquanto outras requerem fundamentação explícita em 3D antes da inferência quantitativa. Apresentamos o Raciocínio Espacial de Dupla Via via Aprendizagem por Reforço para VLMs Espaciais (SR-REAL), uma estrutura unificada que equipa um VLM espacial com duas vias de raciocínio complementares: Raciocínio Somente por Linguagem (LOR), que realiza dedução linguística passo a passo, e Detectar e Depois Raciocinar (DTR), que detecta pistas geométricas 3D (por exemplo, centros ou caixas delimitadoras) por meio de tokens de região antes da inferência geométrica explícita. O SR-REAL começa com um estágio de ajuste fino supervisionado de inicialização a frio que constrói supervisão de cadeia de pensamento para LOR e DTR e expõe uma interface região-para-3D, seguido por RL que otimiza o modelo de política com recompensas de precisão e formato; para o DTR, uma recompensa de detecção discreta baseada em centro refina ainda mais o alinhamento geométrico. Em diversos benchmarks espaciais, o SR-REAL supera significativamente as linhas de base de VLMs espaciais: (i) um único modelo treinado com RL suporta ambas as vias de raciocínio, com o DTR se destacando em tarefas conscientes de região por meio de localização 3D precisa e o LOR aprimorando o raciocínio espacial geral; (ii) o treinamento conjunto de ambas as vias promove reforço mútuo; (iii) dados de inicialização a frio de alta qualidade e combinados são cruciais para uma otimização estável do RL; e (iv) o modelo generaliza entre conjuntos de dados e domínios sem ajuste por tarefa, demonstrando transferência positiva entre LOR e DTR.
English
Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.