ChatPaper.aiChatPaper

텍스트 보기: 토큰화에서 시각적 읽기로

See the Text: From Tokenization to Visual Reading

October 21, 2025
저자: Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li, Jinhui Tang
cs.AI

초록

사람들은 텍스트를 본다. 인간은 단어를 시각적 객체로 인식하여 그 형태, 레이아웃, 패턴을 파악한 후 의미와 연결함으로써 읽기를 수행한다. 이는 오타, 왜곡된 폰트, 다양한 문자 체계를 효과적으로 처리할 수 있게 해준다. 그러나 현대의 대규모 언어 모델(LLMs)은 하위 단어 토큰화(subword tokenization)에 의존하여 텍스트를 고정된 어휘집에서 나온 조각들로 분할한다. 이 방법은 고자원 언어에서는 효과적이지만, 저자원 언어에서는 과도하게 분할되어 길고 언어학적으로 의미 없는 시퀀스를 생성하며 계산 비용을 증가시킨다. 본 연구에서는 이러한 고정된 패러다임에 도전하고 시각 중심의 대안을 제시한다. 우리의 방법인 SeeTok은 텍스트를 이미지(시각적 텍스트)로 렌더링하고, 사전 훈련된 다중 모달 LLMs를 활용하여 이를 해석함으로써 대규모 다중 모달 훈련에서 학습된 강력한 OCR 및 텍스트-시각 정렬 능력을 재사용한다. 세 가지 다른 언어 작업에서 SeeTok은 하위 단어 토큰화 기법과 동등하거나 더 나은 성능을 보이면서도 4.43배 적은 토큰을 사용하고 FLOPs를 70.5% 감소시켰으며, 교차 언어 일반화, 타이포그래피 노이즈에 대한 강건성, 언어적 계층 구조에서 추가적인 이점을 보였다. SeeTok은 상징적 토큰화에서 인간과 유사한 시각적 읽기로의 전환을 시사하며, 더 자연스럽고 인지적으로 영감을 받은 언어 모델로 나아가는 한 걸음을 내딛는다.
English
People see text. Humans read by recognizing words as visual objects, including their shapes, layouts, and patterns, before connecting them to meaning, which enables us to handle typos, distorted fonts, and various scripts effectively. Modern large language models (LLMs), however, rely on subword tokenization, fragmenting text into pieces from a fixed vocabulary. While effective for high-resource languages, this approach over-segments low-resource languages, yielding long, linguistically meaningless sequences and inflating computation. In this work, we challenge this entrenched paradigm and move toward a vision-centric alternative. Our method, SeeTok, renders text as images (visual-text) and leverages pretrained multimodal LLMs to interpret them, reusing strong OCR and text-vision alignment abilities learned from large-scale multimodal training. Across three different language tasks, SeeTok matches or surpasses subword tokenizers while requiring 4.43 times fewer tokens and reducing FLOPs by 70.5%, with additional gains in cross-lingual generalization, robustness to typographic noise, and linguistic hierarchy. SeeTok signals a shift from symbolic tokenization to human-like visual reading, and takes a step toward more natural and cognitively inspired language models.
PDF11October 23, 2025