Verstärkung des Dual-Path-Reasonings in räumlichen visuellen Sprachmodellen

Zusammenfassung

Räumliche visuelle Sprachmodelle (VLMs) haben bedeutende Fortschritte in der geometrischen Wahrnehmung erzielt, dennoch bleibt komplexes räumliches Denken, das mehrschrittige Inferenzen über Tiefe, Entfernung und Szenenbeziehungen erfordert, herausfordernd. Darüber hinaus erfordern unterschiedliche räumliche Abfragen grundlegend verschiedene Strategien: Einige lassen sich am besten durch rein linguistische, schrittweise Deduktion bewältigen, während andere eine explizite 3D-Verankerung vor der quantitativen Inferenz benötigen. Wir stellen SR-REAL (Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs) vor, ein einheitliches Framework, das ein räumliches VLM mit zwei komplementären Denkpfaden ausstattet: dem rein sprachbasierten Denken (LOR – Language-Only Reasoning), das eine schrittweise linguistische Deduktion durchführt, und dem „Erkennen-dann-Denken“ (DTR – Detect-Then-Reason), das über Regionstoken 3D-geometrische Hinweise (z. B. Zentren oder Begrenzungsrahmen) erfasst, bevor explizite geometrische Inferenz erfolgt. SR-REAL beginnt mit einer Kaltstart-Phase des überwachten Feintunings, die LOR- und DTR-Gedankenketten-Supervision konstruiert und eine Region-zu-3D-Schnittstelle bereitstellt. Darauf folgt Reinforcement Learning (RL), das das Policy-Modell mit Genauigkeits- und Formatbelohnungen optimiert; für DTR verfeinert eine diskrete zentrumsbasierte Erkennungsbelohnung zusätzlich die geometrische Ausrichtung. Über verschiedene räumliche Benchmarks hinweg übertrifft SR-REAL räumliche VLM-Baselines deutlich: (i) Ein einzelnes RL-trainiertes Modell unterstützt beide Denkpfade, wobei DTR bei regionsbewussten Aufgaben durch präzise 3D-Lokalisierung hervorsticht und LOR das allgemeine räumliche Denken verbessert; (ii) das gemeinsame Training beider Pfade fördert gegenseitige Verstärkung; (iii) hochwertige, gemischte Kaltstartdaten sind entscheidend für eine stabile RL-Optimierung; und (iv) das Modell generalisiert über Datensätze und Domänen hinweg ohne aufgabenspezifisches Feintuning und zeigt positiven Transfer zwischen LOR und DTR.

English

Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.