ChatPaper.aiChatPaper

Hoe Waarnemen Grote Visueel-Taalmodellen Tekst in Afbeeldingen? Het Ontrafelen van de Onderscheidende Rol van OCR-Koppen

How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

May 21, 2025
Auteurs: Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee
cs.AI

Samenvatting

Ondanks aanzienlijke vooruitgang in Grote Visuele Taalmodellen (LVLMs), blijft er een kloof bestaan, met name wat betreft hun interpreteerbaarheid en hoe ze tekstuele informatie in afbeeldingen lokaliseren en interpreteren. In dit artikel onderzoeken we verschillende LVLMs om de specifieke heads te identificeren die verantwoordelijk zijn voor het herkennen van tekst uit afbeeldingen, wat wij de Optical Character Recognition Head (OCR Head) noemen. Onze bevindingen over deze heads zijn als volgt: (1) Minder Sparse: In tegenstelling tot eerdere retrieval heads, worden een groot aantal heads geactiveerd om tekstuele informatie uit afbeeldingen te extraheren. (2) Kwalitatief Anders: OCR heads hebben eigenschappen die significant verschillen van algemene retrieval heads, met een lage gelijkenis in hun kenmerken. (3) Statisch Geactiveerd: De activatiefrequentie van deze heads komt nauw overeen met hun OCR-scores. We valideren onze bevindingen in downstream taken door Chain-of-Thought (CoT) toe te passen op zowel OCR als conventionele retrieval heads en door deze heads te maskeren. We tonen ook aan dat het herverdelen van sink-token waarden binnen de OCR heads de prestaties verbetert. Deze inzichten bieden een dieper begrip van de interne mechanismen die LVLMs gebruiken bij het verwerken van ingebedde tekstuele informatie in afbeeldingen.
English
Despite significant advancements in Large Vision Language Models (LVLMs), a gap remains, particularly regarding their interpretability and how they locate and interpret textual information within images. In this paper, we explore various LVLMs to identify the specific heads responsible for recognizing text from images, which we term the Optical Character Recognition Head (OCR Head). Our findings regarding these heads are as follows: (1) Less Sparse: Unlike previous retrieval heads, a large number of heads are activated to extract textual information from images. (2) Qualitatively Distinct: OCR heads possess properties that differ significantly from general retrieval heads, exhibiting low similarity in their characteristics. (3) Statically Activated: The frequency of activation for these heads closely aligns with their OCR scores. We validate our findings in downstream tasks by applying Chain-of-Thought (CoT) to both OCR and conventional retrieval heads and by masking these heads. We also demonstrate that redistributing sink-token values within the OCR heads improves performance. These insights provide a deeper understanding of the internal mechanisms LVLMs employ in processing embedded textual information in images.
PDF42May 23, 2025