SSR: Verbetering van dieptewaarneming in visueel-taalkundige modellen via beredeneeringsgestuurd ruimtelijk redeneren
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning
May 18, 2025
Auteurs: Yang Liu, Ming Ma, Xiaomin Yu, Pengxiang Ding, Han Zhao, Mingyang Sun, Siteng Huang, Donglin Wang
cs.AI
Samenvatting
Ondanks indrukwekkende vooruitgang in Visueel-Taalmodellen (VLMs) voor multimodale taken, beperkt hun afhankelijkheid van RGB-input een precieze ruimtelijke begrip. Bestaande methoden voor het integreren van ruimtelijke aanwijzingen, zoals puntenwolken of diepte, vereisen gespecialiseerde sensoren of slagen er niet in om diepte-informatie effectief te benutten voor hogere-orde redenering. Daarom stellen we een nieuwe methode voor, genaamd Spatial Sense and Reasoning (SSR), een innovatief raamwerk dat ruwe dieptegegevens omzet in gestructureerde, interpreteerbare tekstuele redeneringen. Deze tekstuele redeneringen dienen als betekenisvolle tussenliggende representaties om ruimtelijke redeneervaardigheden aanzienlijk te verbeteren. Bovendien maken we gebruik van kennisdistillatie om de gegenereerde redeneringen te comprimeren tot compacte latente embeddings, die een resource-efficiënte en plug-and-play integratie in bestaande VLMs mogelijk maken zonder hertraining. Om een uitgebreide evaluatie mogelijk te maken, introduceren we een nieuwe dataset genaamd SSR-CoT, een miljoenen-schaal visueel-taalredeneerdataset verrijkt met tussenliggende ruimtelijke redeneerannotaties, en presenteren we SSRBench, een uitgebreide multimodale benchmark. Uitgebreide experimenten op meerdere benchmarks tonen aan dat SSR het gebruik van diepte aanzienlijk verbetert en ruimtelijke redenering versterkt, waardoor VLMs worden bevorderd naar een meer mensachtig multimodaal begrip. Onze projectpagina is te vinden op https://yliu-cs.github.io/SSR.
English
Despite impressive advancements in Visual-Language Models (VLMs) for
multi-modal tasks, their reliance on RGB inputs limits precise spatial
understanding. Existing methods for integrating spatial cues, such as point
clouds or depth, either require specialized sensors or fail to effectively
exploit depth information for higher-order reasoning. To this end, we propose a
novel Spatial Sense and Reasoning method, dubbed SSR, a novel framework that
transforms raw depth data into structured, interpretable textual rationales.
These textual rationales serve as meaningful intermediate representations to
significantly enhance spatial reasoning capabilities. Additionally, we leverage
knowledge distillation to compress the generated rationales into compact latent
embeddings, which facilitate resource-efficient and plug-and-play integration
into existing VLMs without retraining. To enable comprehensive evaluation, we
introduce a new dataset named SSR-CoT, a million-scale visual-language
reasoning dataset enriched with intermediate spatial reasoning annotations, and
present SSRBench, a comprehensive multi-task benchmark. Extensive experiments
on multiple benchmarks demonstrate SSR substantially improves depth utilization
and enhances spatial reasoning, thereby advancing VLMs toward more human-like
multi-modal understanding. Our project page is at
https://yliu-cs.github.io/SSR.