Quão Longe Estamos do Raciocínio Dedutivo Visual Inteligente?
How Far Are We from Intelligent Visual Deductive Reasoning?
March 7, 2024
Autores: Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly
cs.AI
Resumo
Modelos de Visão e Linguagem (VLMs, na sigla em inglês), como o GPT-4V, recentemente demonstraram avanços impressionantes em diversas tarefas que envolvem visão e linguagem. Neste estudo, exploramos o raciocínio dedutivo baseado em visão, um domínio mais sofisticado e menos explorado, e identificamos pontos cegos previamente desconhecidos nos VLMs de última geração (SOTA). Especificamente, utilizamos as Matrizes Progressivas de Raven (RPMs) para avaliar a capacidade dos VLMs de realizar raciocínios relacionais e dedutivos de múltiplos passos, dependendo exclusivamente de pistas visuais. Realizamos avaliações abrangentes de vários VLMs populares, empregando estratégias padrão, como aprendizado em contexto, autoconsistência e Cadeia de Pensamentos (CoT, na sigla em inglês), em três conjuntos de dados diversos, incluindo o teste de QI da Mensa, o IntelligenceTest e o RAVEN. Os resultados revelam que, apesar das capacidades impressionantes dos Modelos de Linguagem de Grande Escala (LLMs) em raciocínio baseado em texto, ainda estamos longe de alcançar uma proficiência comparável em raciocínio dedutivo visual. Descobrimos que certas estratégias padrão, eficazes quando aplicadas a LLMs, não se traduzem de forma fluida para os desafios apresentados por tarefas de raciocínio visual. Além disso, uma análise detalhada mostra que os VLMs têm dificuldade em resolver essas tarefas principalmente porque não conseguem perceber e compreender múltiplos padrões abstratos e confusos presentes nos exemplos de RPMs.
English
Vision-Language Models (VLMs) such as GPT-4V have recently demonstrated
incredible strides on diverse vision language tasks. We dig into vision-based
deductive reasoning, a more sophisticated but less explored realm, and find
previously unexposed blindspots in the current SOTA VLMs. Specifically, we
leverage Raven's Progressive Matrices (RPMs), to assess VLMs' abilities to
perform multi-hop relational and deductive reasoning relying solely on visual
clues. We perform comprehensive evaluations of several popular VLMs employing
standard strategies such as in-context learning, self-consistency, and
Chain-of-thoughts (CoT) on three diverse datasets, including the Mensa IQ test,
IntelligenceTest, and RAVEN. The results reveal that despite the impressive
capabilities of LLMs in text-based reasoning, we are still far from achieving
comparable proficiency in visual deductive reasoning. We found that certain
standard strategies that are effective when applied to LLMs do not seamlessly
translate to the challenges presented by visual reasoning tasks. Moreover, a
detailed analysis reveals that VLMs struggle to solve these tasks mainly
because they are unable to perceive and comprehend multiple, confounding
abstract patterns in RPM examples.