ChatPaper.aiChatPaper

¿Qué tan lejos estamos del razonamiento deductivo visual inteligente?

How Far Are We from Intelligent Visual Deductive Reasoning?

March 7, 2024
Autores: Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly
cs.AI

Resumen

Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) como GPT-4V han demostrado recientemente avances increíbles en diversas tareas de visión y lenguaje. Nos adentramos en el razonamiento deductivo basado en visión, un ámbito más sofisticado pero menos explorado, y descubrimos puntos ciegos previamente no expuestos en los VLMs de última generación (SOTA). Específicamente, utilizamos las Matrices Progresivas de Raven (RPMs) para evaluar las capacidades de los VLMs para realizar razonamientos relacionales y deductivos de múltiples pasos basándose únicamente en pistas visuales. Realizamos evaluaciones exhaustivas de varios VLMs populares empleando estrategias estándar como el aprendizaje en contexto, la autoconsistencia y la Cadena de Pensamientos (CoT) en tres conjuntos de datos diversos, incluyendo el test de coeficiente intelectual Mensa, IntelligenceTest y RAVEN. Los resultados revelan que, a pesar de las impresionantes capacidades de los Modelos de Lenguaje (LLMs) en el razonamiento basado en texto, todavía estamos lejos de alcanzar una competencia comparable en el razonamiento deductivo visual. Descubrimos que ciertas estrategias estándar que son efectivas cuando se aplican a los LLMs no se trasladan sin problemas a los desafíos presentados por las tareas de razonamiento visual. Además, un análisis detallado revela que los VLMs tienen dificultades para resolver estas tareas principalmente porque no pueden percibir y comprender múltiples patrones abstractos confusos en los ejemplos de RPMs.
English
Vision-Language Models (VLMs) such as GPT-4V have recently demonstrated incredible strides on diverse vision language tasks. We dig into vision-based deductive reasoning, a more sophisticated but less explored realm, and find previously unexposed blindspots in the current SOTA VLMs. Specifically, we leverage Raven's Progressive Matrices (RPMs), to assess VLMs' abilities to perform multi-hop relational and deductive reasoning relying solely on visual clues. We perform comprehensive evaluations of several popular VLMs employing standard strategies such as in-context learning, self-consistency, and Chain-of-thoughts (CoT) on three diverse datasets, including the Mensa IQ test, IntelligenceTest, and RAVEN. The results reveal that despite the impressive capabilities of LLMs in text-based reasoning, we are still far from achieving comparable proficiency in visual deductive reasoning. We found that certain standard strategies that are effective when applied to LLMs do not seamlessly translate to the challenges presented by visual reasoning tasks. Moreover, a detailed analysis reveals that VLMs struggle to solve these tasks mainly because they are unable to perceive and comprehend multiple, confounding abstract patterns in RPM examples.
PDF241December 15, 2024