Analyse der Sprache visueller Tokens

papers.abstract

Mit der Einführung von Transformer-basierten Modellen für Aufgaben in den Bereichen Vision und Sprache, wie LLaVA und Chameleon, hat das Interesse an der diskreten tokenisierten Darstellung von Bildern erneut zugenommen. Diese Modelle behandeln Bildbereiche oft als diskrete Tokens, analog zu Wörtern in natürlicher Sprache, und lernen gemeinsame Ausrichtungen zwischen visueller und menschlicher Sprache. Es ist jedoch wenig über das statistische Verhalten dieser visuellen Sprachen bekannt – ob sie ähnlichen Häufigkeitsverteilungen, grammatikalischen Strukturen oder Topologien wie natürliche Sprachen folgen. In dieser Arbeit verfolgen wir einen an der natürlichen Sprache orientierten Ansatz zur Analyse diskreter visueller Sprachen und decken auffällige Ähnlichkeiten sowie grundlegende Unterschiede auf. Wir zeigen, dass visuelle Sprachen zwar Zipfschen Verteilungen folgen, eine höhere Token-Innovation jedoch zu größerer Entropie und geringerer Kompression führt, wobei Tokens überwiegend Objektteile repräsentieren, was auf eine intermediäre Granularität hinweist. Wir zeigen auch, dass visuelle Sprachen keine kohäsiven grammatikalischen Strukturen aufweisen, was zu höherer Perplexität und einer schwächeren hierarchischen Organisation im Vergleich zu natürlichen Sprachen führt. Schließlich demonstrieren wir, dass Vision-Modelle zwar enger mit natürlichen Sprachen übereinstimmen als andere Modelle, diese Übereinstimmung jedoch deutlich schwächer ist als die Kohäsion innerhalb natürlicher Sprachen. Durch diese Experimente zeigen wir, wie das Verständnis der statistischen Eigenschaften diskreter visueller Sprachen die Gestaltung effektiverer Computer-Vision-Modelle informieren kann.

English

With the introduction of transformer-based models for vision and language tasks, such as LLaVA and Chameleon, there has been renewed interest in the discrete tokenized representation of images. These models often treat image patches as discrete tokens, analogous to words in natural language, learning joint alignments between visual and human languages. However, little is known about the statistical behavior of these visual languages - whether they follow similar frequency distributions, grammatical structures, or topologies as natural languages. In this paper, we take a natural-language-centric approach to analyzing discrete visual languages and uncover striking similarities and fundamental differences. We demonstrate that, although visual languages adhere to Zipfian distributions, higher token innovation drives greater entropy and lower compression, with tokens predominantly representing object parts, indicating intermediate granularity. We also show that visual languages lack cohesive grammatical structures, leading to higher perplexity and weaker hierarchical organization compared to natural languages. Finally, we demonstrate that, while vision models align more closely with natural languages than other models, this alignment remains significantly weaker than the cohesion found within natural languages. Through these experiments, we demonstrate how understanding the statistical properties of discrete visual languages can inform the design of more effective computer vision models.

Analyse der Sprache visueller Tokens

Analyzing The Language of Visual Tokens

papers.abstract

Support