Fundamentando Ilusões Visuais na Linguagem: Modelos Visão-Linguagem Percebem Ilusões como Humanos?
Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
October 31, 2023
Autores: Yichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai
cs.AI
Resumo
Modelos Visão-Linguagem (VLMs) são treinados com grandes quantidades de dados capturados por humanos, emulando nossa compreensão do mundo. No entanto, conhecidas como ilusões visuais, a percepção humana da realidade nem sempre é fiel ao mundo físico. Isso levanta uma questão fundamental: os VLMs têm o mesmo tipo de ilusões que os humanos, ou aprendem a representar a realidade de forma fiel? Para investigar essa questão, construímos um conjunto de dados contendo cinco tipos de ilusões visuais e formulamos quatro tarefas para examinar ilusões visuais em VLMs de última geração. Nossos resultados mostraram que, embora o alinhamento geral seja baixo, modelos maiores estão mais próximos da percepção humana e são mais suscetíveis a ilusões visuais. Nosso conjunto de dados e descobertas iniciais promoverão uma melhor compreensão das ilusões visuais em humanos e máquinas e fornecerão uma base para futuros modelos computacionais que possam alinhar melhor humanos e máquinas na percepção e comunicação sobre o mundo visual compartilhado. O código e os dados estão disponíveis em https://github.com/vl-illusion/dataset.
English
Vision-Language Models (VLMs) are trained on vast amounts of data captured by
humans emulating our understanding of the world. However, known as visual
illusions, human's perception of reality isn't always faithful to the physical
world. This raises a key question: do VLMs have the similar kind of illusions
as humans do, or do they faithfully learn to represent reality? To investigate
this question, we build a dataset containing five types of visual illusions and
formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our
findings have shown that although the overall alignment is low, larger models
are closer to human perception and more susceptible to visual illusions. Our
dataset and initial findings will promote a better understanding of visual
illusions in humans and machines and provide a stepping stone for future
computational models that can better align humans and machines in perceiving
and communicating about the shared visual world. The code and data are
available at https://github.com/vl-illusion/dataset.