Versterking van Dual-Path Redeneren in Ruimtelijke Visie-Taalmodellen

Samenvatting

Ruimtelijke VLM's hebben aanzienlijke vooruitgang geboekt op het gebied van geometrische waarneming, maar complexe ruimtelijke redeneringen die meerstapsinferentie over diepte, afstand en scène-relaties vereisen, blijven een uitdaging. Bovendien vragen verschillende ruimtelijke queries om fundamenteel verschillende strategieën: sommige kunnen het beste worden aangepakt met puur taalkundige, stapsgewijze deductie, terwijl andere expliciete 3D-verankering vereisen alvorens kwantitatieve inferentie. We presenteren Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), een uniform raamwerk dat een ruimtelijke VLM uitrust met twee complementaire redeneerpaden: Language-Only Reasoning (LOR), dat stapsgewijze taalkundige deductie uitvoert, en Detect-Then-Reason (DTR), dat via regiotokens 3D geometrische aanwijzingen (bijv. middelpunten of begrenzingskaders) detecteert alvorens expliciete geometrische inferentie. SR-REAL begint met een koude-start begeleide fijnregelingsfase die LOR- en DTR-chain-of-thought-supervisie construeert en een regio-naar-3D-interface blootlegt, gevolgd door RL dat het beleidsmodel optimaliseert met nauwkeurigheids- en formaatbeloningen; voor DTR verfijnt een discrete, op centrum gebaseerde detectiebeloning de geometrische uitlijning verder. In diverse ruimtelijke benchmarks presteert SR-REAL aanzienlijk beter dan ruimtelijke VLM-baselines: (i) een enkel met RL getraind model ondersteunt beide redeneerpaden, waarbij DTR uitblinkt in regio-bewuste taken door precieze 3D-lokalisatie en LOR algemene ruimtelijke redenering verbetert; (ii) het gezamenlijk trainen van beide paden bevordert wederzijdse versterking; (iii) hoogwaardige, gemengde koude-startgegevens zijn cruciaal voor stabiele RL-optimalisatie; en (iv) het model generaliseert over datasets en domeinen zonder aanpassing per taak, wat wijst op positieve overdracht tussen LOR en DTR.

English

Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.