Analisando a Linguagem dos Tokens Visuais

Resumo

Com a introdução de modelos baseados em transformadores para tarefas de visão e linguagem, como LLaVA e Chameleon, houve um renovado interesse na representação tokenizada discreta de imagens. Esses modelos frequentemente tratam fragmentos de imagem como tokens discretos, análogos a palavras na linguagem natural, aprendendo alinhamentos conjuntos entre as linguagens visual e humana. No entanto, pouco se sabe sobre o comportamento estatístico dessas linguagens visuais - se elas seguem distribuições de frequência, estruturas gramaticais ou topologias semelhantes às linguagens naturais. Neste artigo, adotamos uma abordagem centrada na linguagem natural para analisar as linguagens visuais discretas e descobrimos similaridades impressionantes e diferenças fundamentais. Demonstramos que, embora as linguagens visuais adiram a distribuições Zipfianas, uma maior inovação de tokens leva a uma maior entropia e menor compressão, com os tokens representando predominantemente partes de objetos, indicando granularidade intermediária. Também mostramos que as linguagens visuais carecem de estruturas gramaticais coesas, resultando em perplexidade mais alta e organização hierárquica mais fraca em comparação com as linguagens naturais. Por fim, demonstramos que, embora os modelos de visão se alinhem mais de perto com as linguagens naturais do que outros modelos, esse alinhamento permanece significativamente mais fraco do que a coesão encontrada dentro das linguagens naturais. Através desses experimentos, demonstramos como a compreensão das propriedades estatísticas das linguagens visuais discretas pode orientar o projeto de modelos de visão computacional mais eficazes.

English

With the introduction of transformer-based models for vision and language tasks, such as LLaVA and Chameleon, there has been renewed interest in the discrete tokenized representation of images. These models often treat image patches as discrete tokens, analogous to words in natural language, learning joint alignments between visual and human languages. However, little is known about the statistical behavior of these visual languages - whether they follow similar frequency distributions, grammatical structures, or topologies as natural languages. In this paper, we take a natural-language-centric approach to analyzing discrete visual languages and uncover striking similarities and fundamental differences. We demonstrate that, although visual languages adhere to Zipfian distributions, higher token innovation drives greater entropy and lower compression, with tokens predominantly representing object parts, indicating intermediate granularity. We also show that visual languages lack cohesive grammatical structures, leading to higher perplexity and weaker hierarchical organization compared to natural languages. Finally, we demonstrate that, while vision models align more closely with natural languages than other models, this alignment remains significantly weaker than the cohesion found within natural languages. Through these experiments, we demonstrate how understanding the statistical properties of discrete visual languages can inform the design of more effective computer vision models.

Analisando a Linguagem dos Tokens Visuais

Analyzing The Language of Visual Tokens

Resumo

Support