Análisis del Lenguaje de los Tokens Visuales
Analyzing The Language of Visual Tokens
November 7, 2024
Autores: David M. Chan, Rodolfo Corona, Joonyong Park, Cheol Jun Cho, Yutong Bai, Trevor Darrell
cs.AI
Resumen
Con la introducción de modelos basados en transformadores para tareas de visión y lenguaje, como LLaVA y Chameleon, ha resurgido el interés en la representación tokenizada discreta de las imágenes. Estos modelos a menudo tratan los parches de imagen como tokens discretos, análogos a las palabras en el lenguaje natural, aprendiendo alineaciones conjuntas entre los lenguajes visual y humano. Sin embargo, se sabe poco sobre el comportamiento estadístico de estos lenguajes visuales: si siguen distribuciones de frecuencia, estructuras gramaticales o topologías similares a las de los lenguajes naturales. En este artículo, adoptamos un enfoque centrado en el lenguaje natural para analizar los lenguajes visuales discretos y descubrimos similitudes sorprendentes y diferencias fundamentales. Demostramos que, aunque los lenguajes visuales se adhieren a distribuciones zipfianas, una mayor innovación en los tokens conduce a una mayor entropía y una menor compresión, representando los tokens predominantemente partes de objetos, lo que indica una granularidad intermedia. También mostramos que los lenguajes visuales carecen de estructuras gramaticales cohesivas, lo que resulta en una mayor perplejidad y una organización jerárquica más débil en comparación con los lenguajes naturales. Finalmente, demostramos que, aunque los modelos de visión se alinean más estrechamente con los lenguajes naturales que otros modelos, esta alineación sigue siendo significativamente más débil que la cohesión encontrada dentro de los lenguajes naturales. A través de estos experimentos, demostramos cómo comprender las propiedades estadísticas de los lenguajes visuales discretos puede informar el diseño de modelos de visión por computadora más efectivos.
English
With the introduction of transformer-based models for vision and language
tasks, such as LLaVA and Chameleon, there has been renewed interest in the
discrete tokenized representation of images. These models often treat image
patches as discrete tokens, analogous to words in natural language, learning
joint alignments between visual and human languages. However, little is known
about the statistical behavior of these visual languages - whether they follow
similar frequency distributions, grammatical structures, or topologies as
natural languages. In this paper, we take a natural-language-centric approach
to analyzing discrete visual languages and uncover striking similarities and
fundamental differences. We demonstrate that, although visual languages adhere
to Zipfian distributions, higher token innovation drives greater entropy and
lower compression, with tokens predominantly representing object parts,
indicating intermediate granularity. We also show that visual languages lack
cohesive grammatical structures, leading to higher perplexity and weaker
hierarchical organization compared to natural languages. Finally, we
demonstrate that, while vision models align more closely with natural languages
than other models, this alignment remains significantly weaker than the
cohesion found within natural languages. Through these experiments, we
demonstrate how understanding the statistical properties of discrete visual
languages can inform the design of more effective computer vision models.