ChatPaper.aiChatPaper

テキストを参照:トークン化から視覚的読解へ

See the Text: From Tokenization to Visual Reading

October 21, 2025
著者: Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li, Jinhui Tang
cs.AI

要旨

人々はテキストを見る。人間は、単語を視覚的対象として認識し、その形状、レイアウト、パターンを把握した後、それらを意味に結びつけることで読む。これにより、タイプミス、歪んだフォント、さまざまなスクリプトを効果的に処理することが可能となる。しかし、現代の大規模言語モデル(LLM)は、サブワードトークン化に依存し、テキストを固定語彙からなる断片に分割する。このアプローチは高リソース言語には有効であるが、低リソース言語では過剰なセグメンテーションを引き起こし、長く言語学的に無意味なシーケンスを生成し、計算量を増大させる。本研究では、この定着したパラダイムに挑戦し、視覚中心の代替案に向けて進む。我々の手法であるSeeTokは、テキストを画像(視覚的テキスト)としてレンダリングし、事前学習済みのマルチモーダルLLMを活用してそれらを解釈する。これにより、大規模なマルチモーダル学習から得られた強力なOCRおよびテキスト-視覚アラインメント能力を再利用する。3つの異なる言語タスクにおいて、SeeTokはサブワードトークナイザーと同等またはそれ以上の性能を発揮し、トークン数を4.43倍削減し、FLOPsを70.5%削減する。さらに、言語間汎化、タイポグラフィックノイズに対する頑健性、言語的階層性においても追加の利点を示す。SeeTokは、記号的なトークン化から人間のような視覚的読解への転換を示し、より自然で認知にインスパイアされた言語モデルに向けた一歩を踏み出す。
English
People see text. Humans read by recognizing words as visual objects, including their shapes, layouts, and patterns, before connecting them to meaning, which enables us to handle typos, distorted fonts, and various scripts effectively. Modern large language models (LLMs), however, rely on subword tokenization, fragmenting text into pieces from a fixed vocabulary. While effective for high-resource languages, this approach over-segments low-resource languages, yielding long, linguistically meaningless sequences and inflating computation. In this work, we challenge this entrenched paradigm and move toward a vision-centric alternative. Our method, SeeTok, renders text as images (visual-text) and leverages pretrained multimodal LLMs to interpret them, reusing strong OCR and text-vision alignment abilities learned from large-scale multimodal training. Across three different language tasks, SeeTok matches or surpasses subword tokenizers while requiring 4.43 times fewer tokens and reducing FLOPs by 70.5%, with additional gains in cross-lingual generalization, robustness to typographic noise, and linguistic hierarchy. SeeTok signals a shift from symbolic tokenization to human-like visual reading, and takes a step toward more natural and cognitively inspired language models.
PDF11October 23, 2025