SSR: Aprimorando a Percepção de Profundidade em Modelos Visão-Linguagem por meio de Raciocínio Espacial Orientado por Fundamentação

Resumo

Apesar dos avanços impressionantes nos Modelos Visuais-Linguísticos (VLMs) para tarefas multimodais, sua dependência de entradas RGB limita a compreensão espacial precisa. Os métodos existentes para integrar pistas espaciais, como nuvens de pontos ou profundidade, exigem sensores especializados ou falham em explorar efetivamente as informações de profundidade para raciocínios de ordem superior. Para isso, propomos um novo método de Senso e Raciocínio Espacial, denominado SSR, uma estrutura inovadora que transforma dados brutos de profundidade em racionais textuais estruturados e interpretáveis. Esses racionais textuais servem como representações intermediárias significativas para aprimorar substancialmente as capacidades de raciocínio espacial. Além disso, utilizamos a destilação de conhecimento para comprimir os racionais gerados em embeddings latentes compactos, que facilitam a integração eficiente em termos de recursos e plug-and-play em VLMs existentes sem necessidade de retreinamento. Para permitir uma avaliação abrangente, introduzimos um novo conjunto de dados chamado SSR-CoT, um conjunto de dados de raciocínio visual-linguístico em escala de milhões enriquecido com anotações intermediárias de raciocínio espacial, e apresentamos o SSRBench, um benchmark abrangente de múltiplas tarefas. Experimentos extensivos em vários benchmarks demonstram que o SSR melhora substancialmente a utilização da profundidade e aprimora o raciocínio espacial, avançando assim os VLMs em direção a uma compreensão multimodal mais semelhante à humana. Nossa página do projeto está em https://yliu-cs.github.io/SSR.

English

Despite impressive advancements in Visual-Language Models (VLMs) for multi-modal tasks, their reliance on RGB inputs limits precise spatial understanding. Existing methods for integrating spatial cues, such as point clouds or depth, either require specialized sensors or fail to effectively exploit depth information for higher-order reasoning. To this end, we propose a novel Spatial Sense and Reasoning method, dubbed SSR, a novel framework that transforms raw depth data into structured, interpretable textual rationales. These textual rationales serve as meaningful intermediate representations to significantly enhance spatial reasoning capabilities. Additionally, we leverage knowledge distillation to compress the generated rationales into compact latent embeddings, which facilitate resource-efficient and plug-and-play integration into existing VLMs without retraining. To enable comprehensive evaluation, we introduce a new dataset named SSR-CoT, a million-scale visual-language reasoning dataset enriched with intermediate spatial reasoning annotations, and present SSRBench, a comprehensive multi-task benchmark. Extensive experiments on multiple benchmarks demonstrate SSR substantially improves depth utilization and enhances spatial reasoning, thereby advancing VLMs toward more human-like multi-modal understanding. Our project page is at https://yliu-cs.github.io/SSR.

SSR: Aprimorando a Percepção de Profundidade em Modelos Visão-Linguagem por meio de Raciocínio Espacial Orientado por Fundamentação

SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning

Resumo

Support