ChatPaper.aiChatPaper

Vedere il Testo: Dalla Tokenizzazione alla Lettura Visiva

See the Text: From Tokenization to Visual Reading

October 21, 2025
Autori: Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li, Jinhui Tang
cs.AI

Abstract

Le persone vedono il testo. Gli esseri umani leggono riconoscendo le parole come oggetti visivi, inclusi le loro forme, disposizioni e modelli, prima di collegarle al significato, il che ci permette di gestire efficacemente errori di battitura, caratteri distorti e vari tipi di scrittura. I moderni modelli linguistici di grandi dimensioni (LLM), tuttavia, si basano sulla tokenizzazione a livello di sottoparola, frammentando il testo in pezzi provenienti da un vocabolario fisso. Sebbene efficace per le lingue ad alta risorsa, questo approccio sovra-segmenta le lingue a bassa risorsa, producendo sequenze lunghe e linguisticamente prive di significato e aumentando il carico computazionale. In questo lavoro, sfidiamo questo paradigma consolidato e ci muoviamo verso un'alternativa centrata sulla visione. Il nostro metodo, SeeTok, rappresenta il testo come immagini (testo visivo) e sfrutta modelli linguistici multimodali pre-addestrati per interpretarle, riutilizzando le forti capacità di riconoscimento ottico dei caratteri (OCR) e di allineamento testo-visione apprese da un addestramento multimodale su larga scala. In tre diverse attività linguistiche, SeeTok eguaglia o supera i tokenizzatori a livello di sottoparola, richiedendo 4,43 volte meno token e riducendo i FLOP del 70,5%, con ulteriori vantaggi nella generalizzazione cross-linguistica, nella robustezza al rumore tipografico e nella gerarchia linguistica. SeeTok segnala un passaggio dalla tokenizzazione simbolica a una lettura visiva simile a quella umana e compie un passo verso modelli linguistici più naturali e ispirati alla cognizione.
English
People see text. Humans read by recognizing words as visual objects, including their shapes, layouts, and patterns, before connecting them to meaning, which enables us to handle typos, distorted fonts, and various scripts effectively. Modern large language models (LLMs), however, rely on subword tokenization, fragmenting text into pieces from a fixed vocabulary. While effective for high-resource languages, this approach over-segments low-resource languages, yielding long, linguistically meaningless sequences and inflating computation. In this work, we challenge this entrenched paradigm and move toward a vision-centric alternative. Our method, SeeTok, renders text as images (visual-text) and leverages pretrained multimodal LLMs to interpret them, reusing strong OCR and text-vision alignment abilities learned from large-scale multimodal training. Across three different language tasks, SeeTok matches or surpasses subword tokenizers while requiring 4.43 times fewer tokens and reducing FLOPs by 70.5%, with additional gains in cross-lingual generalization, robustness to typographic noise, and linguistic hierarchy. SeeTok signals a shift from symbolic tokenization to human-like visual reading, and takes a step toward more natural and cognitively inspired language models.
PDF11October 23, 2025