ChatPaper.aiChatPaper

Усиление двухпутевого рассуждения в пространственных зрительно-языковых моделях

Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

June 16, 2026
Авторы: Yatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu
cs.AI

Аннотация

Пространственные VLM достигли значительного прогресса в геометрическом восприятии, однако сложные пространственные рассуждения, требующие многошагового вывода на основе глубины, расстояния и отношений между сценами, остаются сложной задачей. Более того, различные пространственные запросы требуют принципиально разных стратегий: одни лучше всего решаются с помощью чисто лингвистических пошаговых дедукций, тогда как другие требуют явного трёхмерного обоснования перед количественным выводом. Мы представляем SR-REAL (Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs) — единую структуру, которая наделяет пространственную VLM двумя взаимодополняющими путями рассуждения: только языковое рассуждение (LOR), выполняющее пошаговые лингвистические дедукции, и обнаружение-затем-рассуждение (DTR), которое обнаруживает трехмерные геометрические подсказки (например, центры или ограничивающие рамки) с помощью токенов областей перед явным геометрическим выводом. SR-REAL начинается с этапа контролируемой тонкой настройки с холодным стартом, который создает надзор за цепочкой рассуждений LOR и DTR и предоставляет интерфейс "регион-в-3D", после чего следует RL, оптимизирующий модель политики с помощью наград за точность и формат; для DTR дискретная награда за обнаружение на основе центров дополнительно уточняет геометрическое согласование. На различных пространственных эталонах SR-REAL значительно превосходит базовые пространственные VLM: (i) одна модель, обученная с помощью RL, поддерживает оба пути рассуждения, причем DTR превосходит в задачах, учитывающих регионы, благодаря точной трехмерной локализации, а LOR улучшает общие пространственные рассуждения; (ii) совместное обучение обоих путей способствует взаимному усилению; (iii) высококачественные смешанные данные холодного старта критически важны для стабильной оптимизации RL; (iv) модель демонстрирует обобщение на разных наборах данных и областях без донастройки по каждой задаче, показывая положительный перенос между LOR и DTR.
English
Spatial VLMs have made substantial progress in geometric perception, yet complex spatial reasoning requiring multi-step inference over depth, distance, and scene relations remains challenging. Moreover, different spatial queries call for fundamentally different strategies: some are best addressed through purely linguistic, step-by-step deduction, while others require explicit 3D grounding before quantitative inference. We present Dual-Path Spatial Reasoning via Reinforcement Learning for Spatial VLMs (SR-REAL), a unified framework that equips a spatial VLM with two complementary reasoning paths: Language-Only Reasoning (LOR), which performs step-by-step linguistic deduction, and Detect-Then-Reason (DTR), which detects 3D geometric cues (e.g., centers or bounding boxes) via region tokens before explicit geometric inference. SR-REAL begins with a cold-start supervised fine-tuning stage that constructs LOR and DTR chain-of-thought supervision and exposes a region-to-3D interface, followed by RL that optimizes the policy model with accuracy and format rewards; for DTR, a discrete center-based detection reward further refines geometric alignment. Across diverse spatial benchmarks, SR-REAL significantly outperforms spatial VLM baselines: (i) a single RL-trained model supports both reasoning paths, with DTR excelling in region-aware tasks through precise 3D localization and LOR enhancing general spatial reasoning; (ii) jointly training both paths fosters mutual reinforcement; (iii) high-quality, blended cold-start data is crucial for stable RL optimization; and (iv) the model generalizes across datasets and domains without per-task tuning, demonstrating positive transfer between LOR and DTR.