ChatPaper.aiChatPaper

Анализ языка визуальных токенов

Analyzing The Language of Visual Tokens

November 7, 2024
Авторы: David M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell
cs.AI

Аннотация

С появлением трансформаторных моделей для задач компьютерного зрения и обработки естественного языка, таких как LLaVA и Chameleon, возобновился интерес к дискретным токенизированным представлениям изображений. Эти модели часто рассматривают фрагменты изображений как дискретные токены, по аналогии со словами в естественном языке, изучая совместные соответствия между визуальным и человеческим языками. Однако статистическое поведение этих визуальных языков остается малоизученным — следуют ли они схожим частотным распределениям, грамматическим структурам или топологиям, как естественные языки. В данной статье мы применяем подход, ориентированный на естественный язык, для анализа дискретных визуальных языков и выявляем поразительные сходства и фундаментальные различия. Мы показываем, что, хотя визуальные языки подчиняются распределению Ципфа, более высокая инновационность токенов приводит к большей энтропии и меньшему сжатию, при этом токены преимущественно представляют части объектов, что указывает на промежуточную гранулярность. Мы также демонстрируем, что визуальным языкам не хватает связных грамматических структур, что ведет к более высокой перплексии и более слабой иерархической организации по сравнению с естественными языками. Наконец, мы показываем, что, хотя модели зрения оказываются ближе к естественным языкам, чем другие модели, это соответствие остается значительно слабее, чем связность, наблюдаемая внутри естественных языков. Проведя эти эксперименты, мы демонстрируем, как понимание статистических свойств дискретных визуальных языков может способствовать проектированию более эффективных моделей компьютерного зрения.
English
With the introduction of transformer-based models for vision and language tasks, such as LLaVA and Chameleon, there has been renewed interest in the discrete tokenized representation of images. These models often treat image patches as discrete tokens, analogous to words in natural language, learning joint alignments between visual and human languages. However, little is known about the statistical behavior of these visual languages - whether they follow similar frequency distributions, grammatical structures, or topologies as natural languages. In this paper, we take a natural-language-centric approach to analyzing discrete visual languages and uncover striking similarities and fundamental differences. We demonstrate that, although visual languages adhere to Zipfian distributions, higher token innovation drives greater entropy and lower compression, with tokens predominantly representing object parts, indicating intermediate granularity. We also show that visual languages lack cohesive grammatical structures, leading to higher perplexity and weaker hierarchical organization compared to natural languages. Finally, we demonstrate that, while vision models align more closely with natural languages than other models, this alignment remains significantly weaker than the cohesion found within natural languages. Through these experiments, we demonstrate how understanding the statistical properties of discrete visual languages can inform the design of more effective computer vision models.
PDF242December 4, 2025