Analyse du langage des tokens visuels
Analyzing The Language of Visual Tokens
November 7, 2024
papers.authors: David M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell
cs.AI
papers.abstract
Avec l'introduction de modèles basés sur les transformateurs pour les tâches de vision et de langage, tels que LLaVA et Chameleon, il y a eu un regain d'intérêt pour la représentation discrète et tokenisée des images. Ces modèles traitent souvent les patches d'images comme des tokens discrets, analogues aux mots dans le langage naturel, en apprenant des alignements conjoints entre les langages visuels et humains. Cependant, on sait peu de choses sur le comportement statistique de ces langages visuels - s'ils suivent des distributions de fréquence, des structures grammaticales ou des topologies similaires à celles des langages naturels. Dans cet article, nous adoptons une approche centrée sur le langage naturel pour analyser les langages visuels discrets et découvrons des similitudes frappantes ainsi que des différences fondamentales. Nous démontrons que, bien que les langages visuels adhèrent à des distributions de Zipf, une innovation accrue des tokens entraîne une entropie plus élevée et une compression plus faible, avec des tokens représentant principalement des parties d'objets, indiquant une granularité intermédiaire. Nous montrons également que les langages visuels manquent de structures grammaticales cohésives, conduisant à une perplexité plus élevée et à une organisation hiérarchique plus faible par rapport aux langages naturels. Enfin, nous démontrons que, bien que les modèles de vision s'alignent plus étroitement avec les langages naturels que d'autres modèles, cet alignement reste significativement plus faible que la cohésion observée dans les langages naturels. À travers ces expériences, nous illustrons comment la compréhension des propriétés statistiques des langages visuels discrets peut éclairer la conception de modèles de vision par ordinateur plus efficaces.
English
With the introduction of transformer-based models for vision and language
tasks, such as LLaVA and Chameleon, there has been renewed interest in the
discrete tokenized representation of images. These models often treat image
patches as discrete tokens, analogous to words in natural language, learning
joint alignments between visual and human languages. However, little is known
about the statistical behavior of these visual languages - whether they follow
similar frequency distributions, grammatical structures, or topologies as
natural languages. In this paper, we take a natural-language-centric approach
to analyzing discrete visual languages and uncover striking similarities and
fundamental differences. We demonstrate that, although visual languages adhere
to Zipfian distributions, higher token innovation drives greater entropy and
lower compression, with tokens predominantly representing object parts,
indicating intermediate granularity. We also show that visual languages lack
cohesive grammatical structures, leading to higher perplexity and weaker
hierarchical organization compared to natural languages. Finally, we
demonstrate that, while vision models align more closely with natural languages
than other models, this alignment remains significantly weaker than the
cohesion found within natural languages. Through these experiments, we
demonstrate how understanding the statistical properties of discrete visual
languages can inform the design of more effective computer vision models.