Reforçando o Raciocínio de Dupla Via em Modelos de Visão e Linguagem Espaciais

Resumo

VLMs espaciais fizeram progressos substanciais na percepção geométrica, mas o raciocínio espacial complexo, que requer inferência em múltiplas etapas sobre profundidade, distância e relações de cena, continua desafiador. Além disso, diferentes consultas espaciais exigem estratégias fundamentalmente distintas: algumas são melhor abordadas por meio de dedução puramente linguística, passo a passo, enquanto outras requerem fundamentação explícita em 3D antes da inferência quantitativa. Apresentamos o Raciocínio Espacial de Dupla Via via Aprendizagem por Reforço para VLMs Espaciais (SR-REAL), uma estrutura unificada que equipa um VLM espacial com duas vias de raciocínio complementares: Raciocínio Somente por Linguagem (LOR), que realiza dedução linguística passo a passo, e Detectar e Depois Raciocinar (DTR), que detecta pistas geométricas 3D (por exemplo, centros ou caixas delimitadoras) por meio de tokens de região antes da inferência geométrica explícita. O SR-REAL começa com um estágio de ajuste fino supervisionado de inicialização a frio que constrói supervisão de cadeia de pensamento para LOR e DTR e expõe uma interface região-para-3D, seguido por RL que otimiza o modelo de política com recompensas de precisão e formato; para o DTR, uma recompensa de detecção discreta baseada em centro refina ainda mais o alinhamento geométrico. Em diversos benchmarks espaciais, o SR-REAL supera significativamente as linhas de base de VLMs espaciais: (i) um único modelo treinado com RL suporta ambas as vias de raciocínio, com o DTR se destacando em tarefas conscientes de região por meio de localização 3D precisa e o LOR aprimorando o raciocínio espacial geral; (ii) o treinamento conjunto de ambas as vias promove reforço mútuo; (iii) dados de inicialização a frio de alta qualidade e combinados são cruciais para uma otimização estável do RL; e (iv) o modelo generaliza entre conjuntos de dados e domínios sem ajuste por tarefa, demonstrando transferência positiva entre LOR e DTR.

English

Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.