SSR: 근거 기반 공간 추론을 통한 시각-언어 모델의 깊이 지각 향상
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning
May 18, 2025
저자: Yang Liu, Ming Ma, Xiaomin Yu, Pengxiang Ding, Han Zhao, Mingyang Sun, Siteng Huang, Donglin Wang
cs.AI
초록
다양한 모달리티 작업을 위한 시각-언어 모델(VLMs)의 인상적인 발전에도 불구하고, 이들이 RGB 입력에 의존하는 것은 정확한 공간 이해를 제한한다. 포인트 클라우드나 깊이와 같은 공간 단서를 통합하기 위한 기존 방법들은 특수 센서가 필요하거나 고차원적 추론을 위해 깊이 정보를 효과적으로 활용하지 못한다. 이를 위해, 우리는 원시 깊이 데이터를 구조화되고 해석 가능한 텍스트적 근거로 변환하는 새로운 공간 감각 및 추론 방법인 SSR(Spatial Sense and Reasoning)을 제안한다. 이러한 텍스트적 근거는 의미 있는 중간 표현으로 작용하여 공간 추론 능력을 크게 향상시킨다. 또한, 우리는 생성된 근거를 컴팩트한 잠재 임베딩으로 압축하기 위해 지식 증류를 활용하여, 재훈련 없이 기존 VLMs에 자원 효율적이고 플러그 앤 플레이 방식으로 통합할 수 있도록 한다. 포괄적인 평가를 위해, 우리는 중간 공간 추론 주석이 풍부한 백만 규모의 시각-언어 추론 데이터셋인 SSR-CoT와 다중 작업 벤치마크인 SSRBench을 소개한다. 여러 벤치마크에서의 광범위한 실험을 통해 SSR이 깊이 활용을 크게 개선하고 공간 추론을 강화하여 VLMs이 더 인간적인 다중 모달리티 이해로 나아가도록 하는 것을 입증한다. 우리의 프로젝트 페이지는 https://yliu-cs.github.io/SSR에서 확인할 수 있다.
English
Despite impressive advancements in Visual-Language Models (VLMs) for
multi-modal tasks, their reliance on RGB inputs limits precise spatial
understanding. Existing methods for integrating spatial cues, such as point
clouds or depth, either require specialized sensors or fail to effectively
exploit depth information for higher-order reasoning. To this end, we propose a
novel Spatial Sense and Reasoning method, dubbed SSR, a novel framework that
transforms raw depth data into structured, interpretable textual rationales.
These textual rationales serve as meaningful intermediate representations to
significantly enhance spatial reasoning capabilities. Additionally, we leverage
knowledge distillation to compress the generated rationales into compact latent
embeddings, which facilitate resource-efficient and plug-and-play integration
into existing VLMs without retraining. To enable comprehensive evaluation, we
introduce a new dataset named SSR-CoT, a million-scale visual-language
reasoning dataset enriched with intermediate spatial reasoning annotations, and
present SSRBench, a comprehensive multi-task benchmark. Extensive experiments
on multiple benchmarks demonstrate SSR substantially improves depth utilization
and enhances spatial reasoning, thereby advancing VLMs toward more human-like
multi-modal understanding. Our project page is at
https://yliu-cs.github.io/SSR.Summary
AI-Generated Summary