ChatPaper.aiChatPaper

대규모 시각-언어 모델은 이미지 내 텍스트를 어떻게 인식하는가? OCR 헤드의 독특한 역할 해부

How Do Large Vision-Language Models See Text in Image? Unveiling the Distinctive Role of OCR Heads

May 21, 2025
저자: Ingeol Baek, Hwan Chang, Sunghyun Ryu, Hwanhee Lee
cs.AI

초록

대규모 시각 언어 모델(Large Vision Language Models, LVLMs)의 상당한 발전에도 불구하고, 특히 모델의 해석 가능성과 이미지 내 텍스트 정보를 어떻게 찾고 해석하는지에 관한 격차가 여전히 존재합니다. 본 논문에서는 이미지에서 텍스트를 인식하는 데 관여하는 특정 헤드를 식별하기 위해 다양한 LVLM을 탐구하며, 이를 광학 문자 인식 헤드(Optical Character Recognition Head, OCR 헤드)로 명명합니다. 이러한 헤드에 관한 우리의 연구 결과는 다음과 같습니다: (1) 덜 희소성: 이전의 검색 헤드와 달리, 이미지에서 텍스트 정보를 추출하기 위해 많은 수의 헤드가 활성화됩니다. (2) 질적으로 구별됨: OCR 헤드는 일반적인 검색 헤드와 크게 다른 특성을 가지며, 그 특성 간 유사도가 낮습니다. (3) 정적으로 활성화됨: 이러한 헤드의 활성화 빈도는 OCR 점수와 밀접하게 일치합니다. 우리는 이러한 발견을 다운스트림 작업에서 검증하기 위해 OCR 헤드와 기존 검색 헤드에 Chain-of-Thought(CoT)를 적용하고, 이러한 헤드를 마스킹합니다. 또한 OCR 헤드 내 싱크 토큰(sink-token) 값을 재분배함으로써 성능이 향상됨을 보여줍니다. 이러한 통찰은 LVLM이 이미지에 내재된 텍스트 정보를 처리하는 내부 메커니즘에 대한 더 깊은 이해를 제공합니다.
English
Despite significant advancements in Large Vision Language Models (LVLMs), a gap remains, particularly regarding their interpretability and how they locate and interpret textual information within images. In this paper, we explore various LVLMs to identify the specific heads responsible for recognizing text from images, which we term the Optical Character Recognition Head (OCR Head). Our findings regarding these heads are as follows: (1) Less Sparse: Unlike previous retrieval heads, a large number of heads are activated to extract textual information from images. (2) Qualitatively Distinct: OCR heads possess properties that differ significantly from general retrieval heads, exhibiting low similarity in their characteristics. (3) Statically Activated: The frequency of activation for these heads closely aligns with their OCR scores. We validate our findings in downstream tasks by applying Chain-of-Thought (CoT) to both OCR and conventional retrieval heads and by masking these heads. We also demonstrate that redistributing sink-token values within the OCR heads improves performance. These insights provide a deeper understanding of the internal mechanisms LVLMs employ in processing embedded textual information in images.

Summary

AI-Generated Summary

PDF22May 23, 2025