Hoe Ver Zijn We van Intelligent Visueel Deductief Redeneren?
How Far Are We from Intelligent Visual Deductive Reasoning?
March 7, 2024
Auteurs: Yizhe Zhang, He Bai, Ruixiang Zhang, Jiatao Gu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly
cs.AI
Samenvatting
Vision-Language Models (VLMs) zoals GPT-4V hebben recentelijk ongelooflijke vooruitgang geboekt op diverse visueel-taalkundige taken. Wij verdiepen ons in visueel gebaseerd deductief redeneren, een meer geavanceerd maar minder verkend domein, en ontdekken voorheen onbekende blinde vlekken in de huidige state-of-the-art VLMs. Specifiek maken we gebruik van Raven's Progressive Matrices (RPMs) om de vaardigheden van VLMs te beoordelen om multi-hop relationeel en deductief redeneren uit te voeren, uitsluitend gebaseerd op visuele aanwijzingen. We voeren uitgebreide evaluaties uit van verschillende populaire VLMs met behulp van standaardstrategieën zoals in-context leren, zelfconsistentie en Chain-of-Thoughts (CoT) op drie diverse datasets, waaronder de Mensa IQ-test, IntelligenceTest en RAVEN. De resultaten tonen aan dat, ondanks de indrukwekkende capaciteiten van LLMs in tekstgebaseerd redeneren, we nog ver verwijderd zijn van vergelijkbare vaardigheid in visueel deductief redeneren. We ontdekten dat bepaalde standaardstrategieën die effectief zijn bij LLMs niet naadloos vertalen naar de uitdagingen die visuele redeneertaken met zich meebrengen. Bovendien toont een gedetailleerde analyse aan dat VLMs moeite hebben met het oplossen van deze taken, voornamelijk omdat ze niet in staat zijn om meerdere, verwarrende abstracte patronen in RPM-voorbeelden waar te nemen en te begrijpen.
English
Vision-Language Models (VLMs) such as GPT-4V have recently demonstrated
incredible strides on diverse vision language tasks. We dig into vision-based
deductive reasoning, a more sophisticated but less explored realm, and find
previously unexposed blindspots in the current SOTA VLMs. Specifically, we
leverage Raven's Progressive Matrices (RPMs), to assess VLMs' abilities to
perform multi-hop relational and deductive reasoning relying solely on visual
clues. We perform comprehensive evaluations of several popular VLMs employing
standard strategies such as in-context learning, self-consistency, and
Chain-of-thoughts (CoT) on three diverse datasets, including the Mensa IQ test,
IntelligenceTest, and RAVEN. The results reveal that despite the impressive
capabilities of LLMs in text-based reasoning, we are still far from achieving
comparable proficiency in visual deductive reasoning. We found that certain
standard strategies that are effective when applied to LLMs do not seamlessly
translate to the challenges presented by visual reasoning tasks. Moreover, a
detailed analysis reveals that VLMs struggle to solve these tasks mainly
because they are unable to perceive and comprehend multiple, confounding
abstract patterns in RPM examples.