Comment les grands modèles vision-langage perçoivent-ils le texte dans les images ? Révéler le rôle distinctif des têtes OCR
How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads
May 21, 2025
Auteurs: Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee
cs.AI
Résumé
Malgré les avancées significatives dans les modèles de vision et langage à grande échelle (LVLMs), un écart persiste, notamment en ce qui concerne leur interprétabilité et la manière dont ils localisent et interprètent les informations textuelles dans les images. Dans cet article, nous explorons divers LVLMs pour identifier les têtes spécifiques responsables de la reconnaissance de texte à partir d'images, que nous nommons les têtes de reconnaissance optique de caractères (OCR Head). Nos découvertes concernant ces têtes sont les suivantes : (1) Moins Sparse : Contrairement aux têtes de récupération précédentes, un grand nombre de têtes sont activées pour extraire des informations textuelles des images. (2) Qualitativement Distinctes : Les têtes OCR possèdent des propriétés qui diffèrent significativement des têtes de récupération générales, montrant une faible similarité dans leurs caractéristiques. (3) Statiquement Activées : La fréquence d'activation de ces têtes correspond étroitement à leurs scores OCR. Nous validons nos découvertes dans des tâches en aval en appliquant la chaîne de pensée (Chain-of-Thought, CoT) à la fois aux têtes OCR et aux têtes de récupération conventionnelles, et en masquant ces têtes. Nous démontrons également que la redistribution des valeurs des tokens-sink au sein des têtes OCR améliore les performances. Ces insights offrent une compréhension plus approfondie des mécanismes internes que les LVLMs utilisent pour traiter les informations textuelles intégrées dans les images.
English
Despite significant advancements in Large Vision Language Models (LVLMs), a
gap remains, particularly regarding their interpretability and how they locate
and interpret textual information within images. In this paper, we explore
various LVLMs to identify the specific heads responsible for recognizing text
from images, which we term the Optical Character Recognition Head (OCR Head).
Our findings regarding these heads are as follows: (1) Less Sparse: Unlike
previous retrieval heads, a large number of heads are activated to extract
textual information from images. (2) Qualitatively Distinct: OCR heads possess
properties that differ significantly from general retrieval heads, exhibiting
low similarity in their characteristics. (3) Statically Activated: The
frequency of activation for these heads closely aligns with their OCR scores.
We validate our findings in downstream tasks by applying Chain-of-Thought (CoT)
to both OCR and conventional retrieval heads and by masking these heads. We
also demonstrate that redistributing sink-token values within the OCR heads
improves performance. These insights provide a deeper understanding of the
internal mechanisms LVLMs employ in processing embedded textual information in
images.Summary
AI-Generated Summary