Reforzamiento del razonamiento de doble vía en modelos de lenguaje de visión espacial

Resumen

Los VLM espaciales han logrado avances sustanciales en la percepción geométrica, pero el razonamiento espacial complejo que requiere inferencia de múltiples pasos sobre profundidad, distancia y relaciones de escena sigue siendo un desafío. Además, diferentes consultas espaciales requieren estrategias fundamentalmente distintas: algunas se abordan mejor mediante deducción puramente lingüística paso a paso, mientras que otras necesitan un anclaje 3D explícito antes de la inferencia cuantitativa. Presentamos el Razonamiento Espacial de Doble Vía mediante Aprendizaje por Refuerzo para VLM Espaciales (SR-REAL), un marco unificado que dota a un VLM espacial con dos vías de razonamiento complementarias: Razonamiento Solo Lingüístico (LOR), que realiza deducciones lingüísticas paso a paso, y Detectar-Luego-Razonar (DTR), que detecta señales geométricas 3D (por ejemplo, centros o cuadros delimitadores) mediante tokens de región antes de la inferencia geométrica explícita. SR-REAL comienza con una etapa de ajuste fino supervisado de arranque en frío que construye supervisión de cadena de pensamiento para LOR y DTR y expone una interfaz región-a-3D, seguida de RL que optimiza el modelo de política con recompensas de precisión y formato; para DTR, una recompensa discreta de detección basada en centros refina aún más la alineación geométrica. En diversos puntos de referencia espaciales, SR-REAL supera significativamente a las líneas base de VLM espaciales: (i) un solo modelo entrenado con RL admite ambas vías de razonamiento, destacando DTR en tareas conscientes de región mediante localización 3D precisa y LOR mejorando el razonamiento espacial general; (ii) el entrenamiento conjunto de ambas vías fomenta el refuerzo mutuo; (iii) los datos de arranque en frío mezclados y de alta calidad son cruciales para una optimización estable de RL; y (iv) el modelo se generaliza a través de conjuntos de datos y dominios sin ajuste por tarea, demostrando transferencia positiva entre LOR y DTR.

English

Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.