SSR: Aprimorando a Percepção de Profundidade em Modelos Visão-Linguagem por meio de Raciocínio Espacial Orientado por Fundamentação
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning
May 18, 2025
Autores: Yang Liu, Ming Ma, Xiaomin Yu, Pengxiang Ding, Han Zhao, Mingyang Sun, Siteng Huang, Donglin Wang
cs.AI
Resumo
Apesar dos avanços impressionantes nos Modelos Visuais-Linguísticos (VLMs) para tarefas multimodais, sua dependência de entradas RGB limita a compreensão espacial precisa. Os métodos existentes para integrar pistas espaciais, como nuvens de pontos ou profundidade, exigem sensores especializados ou falham em explorar efetivamente as informações de profundidade para raciocínios de ordem superior. Para isso, propomos um novo método de Senso e Raciocínio Espacial, denominado SSR, uma estrutura inovadora que transforma dados brutos de profundidade em racionais textuais estruturados e interpretáveis. Esses racionais textuais servem como representações intermediárias significativas para aprimorar substancialmente as capacidades de raciocínio espacial. Além disso, utilizamos a destilação de conhecimento para comprimir os racionais gerados em embeddings latentes compactos, que facilitam a integração eficiente em termos de recursos e plug-and-play em VLMs existentes sem necessidade de retreinamento. Para permitir uma avaliação abrangente, introduzimos um novo conjunto de dados chamado SSR-CoT, um conjunto de dados de raciocínio visual-linguístico em escala de milhões enriquecido com anotações intermediárias de raciocínio espacial, e apresentamos o SSRBench, um benchmark abrangente de múltiplas tarefas. Experimentos extensivos em vários benchmarks demonstram que o SSR melhora substancialmente a utilização da profundidade e aprimora o raciocínio espacial, avançando assim os VLMs em direção a uma compreensão multimodal mais semelhante à humana. Nossa página do projeto está em https://yliu-cs.github.io/SSR.
English
Despite impressive advancements in Visual-Language Models (VLMs) for
multi-modal tasks, their reliance on RGB inputs limits precise spatial
understanding. Existing methods for integrating spatial cues, such as point
clouds or depth, either require specialized sensors or fail to effectively
exploit depth information for higher-order reasoning. To this end, we propose a
novel Spatial Sense and Reasoning method, dubbed SSR, a novel framework that
transforms raw depth data into structured, interpretable textual rationales.
These textual rationales serve as meaningful intermediate representations to
significantly enhance spatial reasoning capabilities. Additionally, we leverage
knowledge distillation to compress the generated rationales into compact latent
embeddings, which facilitate resource-efficient and plug-and-play integration
into existing VLMs without retraining. To enable comprehensive evaluation, we
introduce a new dataset named SSR-CoT, a million-scale visual-language
reasoning dataset enriched with intermediate spatial reasoning annotations, and
present SSRBench, a comprehensive multi-task benchmark. Extensive experiments
on multiple benchmarks demonstrate SSR substantially improves depth utilization
and enhances spatial reasoning, thereby advancing VLMs toward more human-like
multi-modal understanding. Our project page is at
https://yliu-cs.github.io/SSR.