Усиление двухпутевого рассуждения в пространственных зрительно-языковых моделях

Аннотация

Пространственные VLM достигли значительного прогресса в геометрическом восприятии, однако сложные пространственные рассуждения, требующие многошагового вывода на основе глубины, расстояния и отношений между сценами, остаются сложной задачей. Более того, различные пространственные запросы требуют принципиально разных стратегий: одни лучше всего решаются с помощью чисто лингвистических пошаговых дедукций, тогда как другие требуют явного трёхмерного обоснования перед количественным выводом. Мы представляем SR-REAL (Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs) — единую структуру, которая наделяет пространственную VLM двумя взаимодополняющими путями рассуждения: только языковое рассуждение (LOR), выполняющее пошаговые лингвистические дедукции, и обнаружение-затем-рассуждение (DTR), которое обнаруживает трехмерные геометрические подсказки (например, центры или ограничивающие рамки) с помощью токенов областей перед явным геометрическим выводом. SR-REAL начинается с этапа контролируемой тонкой настройки с холодным стартом, который создает надзор за цепочкой рассуждений LOR и DTR и предоставляет интерфейс "регион-в-3D", после чего следует RL, оптимизирующий модель политики с помощью наград за точность и формат; для DTR дискретная награда за обнаружение на основе центров дополнительно уточняет геометрическое согласование. На различных пространственных эталонах SR-REAL значительно превосходит базовые пространственные VLM: (i) одна модель, обученная с помощью RL, поддерживает оба пути рассуждения, причем DTR превосходит в задачах, учитывающих регионы, благодаря точной трехмерной локализации, а LOR улучшает общие пространственные рассуждения; (ii) совместное обучение обоих путей способствует взаимному усилению; (iii) высококачественные смешанные данные холодного старта критически важны для стабильной оптимизации RL; (iv) модель демонстрирует обобщение на разных наборах данных и областях без донастройки по каждой задаче, показывая положительный перенос между LOR и DTR.

English

Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.