Ancrage des illusions visuelles dans le langage : les modèles vision-langage perçoivent-ils les illusions comme les humains ?

papers.abstract

Les modèles vision-langage (VLMs) sont entraînés sur de vastes quantités de données capturées par les humains, imitant ainsi notre compréhension du monde. Cependant, comme le montrent les illusions d'optique, la perception humaine de la réalité ne correspond pas toujours fidèlement au monde physique. Cela soulève une question essentielle : les VLMs présentent-ils des illusions similaires à celles des humains, ou apprennent-ils à représenter la réalité de manière fidèle ? Pour explorer cette question, nous avons constitué un ensemble de données contenant cinq types d'illusions visuelles et formulé quatre tâches pour examiner ces illusions dans les VLMs de pointe. Nos résultats montrent que, bien que l'alignement global soit faible, les modèles plus volumineux se rapprochent davantage de la perception humaine et sont plus sensibles aux illusions visuelles. Notre ensemble de données et nos premières découvertes favoriseront une meilleure compréhension des illusions visuelles chez les humains et les machines, et serviront de tremplin pour de futurs modèles computationnels capables de mieux aligner les perceptions et les communications entre humains et machines concernant le monde visuel partagé. Le code et les données sont disponibles à l'adresse suivante : https://github.com/vl-illusion/dataset.

English

Vision-Language Models (VLMs) are trained on vast amounts of data captured by humans emulating our understanding of the world. However, known as visual illusions, human's perception of reality isn't always faithful to the physical world. This raises a key question: do VLMs have the similar kind of illusions as humans do, or do they faithfully learn to represent reality? To investigate this question, we build a dataset containing five types of visual illusions and formulate four tasks to examine visual illusions in state-of-the-art VLMs. Our findings have shown that although the overall alignment is low, larger models are closer to human perception and more susceptible to visual illusions. Our dataset and initial findings will promote a better understanding of visual illusions in humans and machines and provide a stepping stone for future computational models that can better align humans and machines in perceiving and communicating about the shared visual world. The code and data are available at https://github.com/vl-illusion/dataset.

Ancrage des illusions visuelles dans le langage : les modèles vision-langage perçoivent-ils les illusions comme les humains ?

Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?

papers.abstract

Support