Ancrage des illusions visuelles dans le langage : les modèles vision-langage perçoivent-ils les illusions comme les humains ?
Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
October 31, 2023
Auteurs: Yichi Zhang, Jiayi Pan, Yuchen Zhou, Rui Pan, Joyce Chai
cs.AI
Résumé
Les modèles vision-langage (VLMs) sont entraînés sur de vastes quantités de données capturées par les humains, imitant ainsi notre compréhension du monde. Cependant, comme le montrent les illusions d'optique, la perception humaine de la réalité ne correspond pas toujours fidèlement au monde physique. Cela soulève une question essentielle : les VLMs présentent-ils des illusions similaires à celles des humains, ou apprennent-ils à représenter la réalité de manière fidèle ? Pour explorer cette question, nous avons constitué un ensemble de données contenant cinq types d'illusions visuelles et formulé quatre tâches pour examiner ces illusions dans les VLMs de pointe. Nos résultats montrent que, bien que l'alignement global soit faible, les modèles plus volumineux se rapprochent davantage de la perception humaine et sont plus sensibles aux illusions visuelles. Notre ensemble de données et nos premières découvertes favoriseront une meilleure compréhension des illusions visuelles chez les humains et les machines, et serviront de tremplin pour de futurs modèles computationnels capables de mieux aligner les perceptions et les communications entre humains et machines concernant le monde visuel partagé. Le code et les données sont disponibles à l'adresse suivante : https://github.com/vl-illusion/dataset.
English
Vision-Language Models (VLMs) are trained on vast amounts of data captured by
humans emulating our understanding of the world. However, known as visual
illusions, human's perception of reality isn't always faithful to the physical
world. This raises a key question: do VLMs have the similar kind of illusions
as humans do, or do they faithfully learn to represent reality? To investigate
this question, we build a dataset containing five types of visual illusions and
formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our
findings have shown that although the overall alignment is low, larger models
are closer to human perception and more susceptible to visual illusions. Our
dataset and initial findings will promote a better understanding of visual
illusions in humans and machines and provide a stepping stone for future
computational models that can better align humans and machines in perceiving
and communicating about the shared visual world. The code and data are
available at https://github.com/vl-illusion/dataset.