Renforcement du raisonnement à double voie dans les modèles de langage et de vision spatiale

Résumé

Les VLM spatiaux ont réalisé des progrès substantiels dans la perception géométrique, mais le raisonnement spatial complexe nécessitant des inférences multi-étapes sur la profondeur, la distance et les relations de scène reste difficile. De plus, différentes requêtes spatiales exigent des stratégies fondamentalement distinctes : certaines sont mieux traitées par une déduction purement linguistique et étape par étape, tandis que d'autres nécessitent un ancrage 3D explicite avant une inférence quantitative. Nous présentons le Raisonnement Spatial à Double Voie par Apprentissage par Renforcement pour les VLM Spatiaux (SR-REAL), un cadre unifié qui dote un VLM spatial de deux voies de raisonnement complémentaires : le Raisonnement Langagier Seul (LOR), qui effectue une déduction linguistique étape par étape, et la Détection-Puis-Raisonnement (DTR), qui détecte des indices géométriques 3D (par exemple, centres ou boîtes englobantes) via des jetons de région avant une inférence géométrique explicite. SR-REAL commence par une étape de fine-tuning supervisé à froid qui construit la supervision de chaîne de pensée pour LOR et DTR et expose une interface région-3D, suivie d'un apprentissage par renforcement qui optimise le modèle de politique avec des récompenses de précision et de format ; pour DTR, une récompense de détection discrète basée sur le centre affine davantage l'alignement géométrique. Sur divers benchmarks spatiaux, SR-REAL surpasse significativement les lignes de base des VLM spatiaux : (i) un modèle unique entraîné par RL supporte les deux voies de raisonnement, DTR excellant dans les tâches conscientes des régions grâce à une localisation 3D précise et LOR améliorant le raisonnement spatial général ; (ii) l'entraînement conjoint des deux voies favorise un renforcement mutuel ; (iii) des données à froid de haute qualité et mélangées sont cruciales pour une optimisation stable du RL ; et (iv) le modèle généralise à travers les ensembles de données et les domaines sans réglage par tâche, démontrant un transfert positif entre LOR et DTR.

English

Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.