ChatPaper.aiChatPaper

Fundamentando Ilusões Visuais na Linguagem: Modelos Visão-Linguagem Percebem Ilusões como Humanos?

Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?

October 31, 2023
Autores: Yichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) são treinados com grandes quantidades de dados capturados por humanos, emulando nossa compreensão do mundo. No entanto, conhecidas como ilusões visuais, a percepção humana da realidade nem sempre é fiel ao mundo físico. Isso levanta uma questão fundamental: os VLMs têm o mesmo tipo de ilusões que os humanos, ou aprendem a representar a realidade de forma fiel? Para investigar essa questão, construímos um conjunto de dados contendo cinco tipos de ilusões visuais e formulamos quatro tarefas para examinar ilusões visuais em VLMs de última geração. Nossos resultados mostraram que, embora o alinhamento geral seja baixo, modelos maiores estão mais próximos da percepção humana e são mais suscetíveis a ilusões visuais. Nosso conjunto de dados e descobertas iniciais promoverão uma melhor compreensão das ilusões visuais em humanos e máquinas e fornecerão uma base para futuros modelos computacionais que possam alinhar melhor humanos e máquinas na percepção e comunicação sobre o mundo visual compartilhado. O código e os dados estão disponíveis em https://github.com/vl-illusion/dataset.
English
Vision-Language Models (VLMs) are trained on vast amounts of data captured by humans emulating our understanding of the world. However, known as visual illusions, human's perception of reality isn't always faithful to the physical world. This raises a key question: do VLMs have the similar kind of illusions as humans do, or do they faithfully learn to represent reality? To investigate this question, we build a dataset containing five types of visual illusions and formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our findings have shown that although the overall alignment is low, larger models are closer to human perception and more susceptible to visual illusions. Our dataset and initial findings will promote a better understanding of visual illusions in humans and machines and provide a stepping stone for future computational models that can better align humans and machines in perceiving and communicating about the shared visual world. The code and data are available at https://github.com/vl-illusion/dataset.
PDF101February 8, 2026