Comment les grands modèles vision-langage perçoivent-ils le texte dans les images ? Révéler le rôle distinctif des têtes OCR

papers.abstract

Malgré les avancées significatives dans les modèles de vision et langage à grande échelle (LVLMs), un écart persiste, notamment en ce qui concerne leur interprétabilité et la manière dont ils localisent et interprètent les informations textuelles dans les images. Dans cet article, nous explorons divers LVLMs pour identifier les têtes spécifiques responsables de la reconnaissance de texte à partir d'images, que nous nommons les têtes de reconnaissance optique de caractères (OCR Head). Nos découvertes concernant ces têtes sont les suivantes : (1) Moins Sparse : Contrairement aux têtes de récupération précédentes, un grand nombre de têtes sont activées pour extraire des informations textuelles des images. (2) Qualitativement Distinctes : Les têtes OCR possèdent des propriétés qui diffèrent significativement des têtes de récupération générales, montrant une faible similarité dans leurs caractéristiques. (3) Statiquement Activées : La fréquence d'activation de ces têtes correspond étroitement à leurs scores OCR. Nous validons nos découvertes dans des tâches en aval en appliquant la chaîne de pensée (Chain-of-Thought, CoT) à la fois aux têtes OCR et aux têtes de récupération conventionnelles, et en masquant ces têtes. Nous démontrons également que la redistribution des valeurs des tokens-sink au sein des têtes OCR améliore les performances. Ces insights offrent une compréhension plus approfondie des mécanismes internes que les LVLMs utilisent pour traiter les informations textuelles intégrées dans les images.

English

Despite significant advancements in Large Vision Language Models (LVLMs), a gap remains, particularly regarding their interpretability and how they locate and interpret textual information within images. In this paper, we explore various LVLMs to identify the specific heads responsible for recognizing text from images, which we term the Optical Character Recognition Head (OCR Head). Our findings regarding these heads are as follows: (1) Less Sparse: Unlike previous retrieval heads, a large number of heads are activated to extract textual information from images. (2) Qualitatively Distinct: OCR heads possess properties that differ significantly from general retrieval heads, exhibiting low similarity in their characteristics. (3) Statically Activated: The frequency of activation for these heads closely aligns with their OCR scores. We validate our findings in downstream tasks by applying Chain-of-Thought (CoT) to both OCR and conventional retrieval heads and by masking these heads. We also demonstrate that redistributing sink-token values within the OCR heads improves performance. These insights provide a deeper understanding of the internal mechanisms LVLMs employ in processing embedded textual information in images.

Comment les grands modèles vision-langage perçoivent-ils le texte dans les images ? Révéler le rôle distinctif des têtes OCR

How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

papers.abstract

Support