ChatPaper.aiChatPaper

Voir le texte : De la tokenisation à la lecture visuelle

See the Text: From Tokenization to Visual Reading

October 21, 2025
papers.authors: Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li, Jinhui Tang
cs.AI

papers.abstract

Les humains perçoivent le texte. Ils lisent en reconnaissant les mots comme des objets visuels, incluant leurs formes, leurs dispositions et leurs motifs, avant de les associer à leur signification, ce qui leur permet de gérer efficacement les fautes de frappe, les polices déformées et les différents systèmes d'écriture. Cependant, les modèles de langage modernes à grande échelle (LLMs) reposent sur la tokenisation par sous-mots, fragmentant le texte en morceaux issus d'un vocabulaire fixe. Bien que cette approche soit efficace pour les langues riches en ressources, elle sur-segmente les langues à faibles ressources, produisant des séquences longues et linguistiquement dénuées de sens, tout en augmentant les calculs nécessaires. Dans ce travail, nous remettons en question ce paradigme bien établi et proposons une alternative centrée sur la vision. Notre méthode, SeeTok, transforme le texte en images (texte visuel) et exploite des LLMs multimodaux pré-entraînés pour les interpréter, réutilisant ainsi les fortes capacités de reconnaissance optique de caractères (OCR) et d'alignement texte-image acquises lors d'un entraînement multimodal à grande échelle. Sur trois tâches linguistiques différentes, SeeTok égal ou surpasse les tokeniseurs par sous-mots tout en nécessitant 4,43 fois moins de tokens et en réduisant les FLOPs de 70,5%, avec des gains supplémentaires en généralisation translinguistique, en robustesse face au bruit typographique et en hiérarchie linguistique. SeeTok marque un tournant dans la tokenisation symbolique vers une lecture visuelle plus proche de celle des humains, et représente un pas vers des modèles de langage plus naturels et inspirés par la cognition.
English
People see text. Humans read by recognizing words as visual objects, including their shapes, layouts, and patterns, before connecting them to meaning, which enables us to handle typos, distorted fonts, and various scripts effectively. Modern large language models (LLMs), however, rely on subword tokenization, fragmenting text into pieces from a fixed vocabulary. While effective for high-resource languages, this approach over-segments low-resource languages, yielding long, linguistically meaningless sequences and inflating computation. In this work, we challenge this entrenched paradigm and move toward a vision-centric alternative. Our method, SeeTok, renders text as images (visual-text) and leverages pretrained multimodal LLMs to interpret them, reusing strong OCR and text-vision alignment abilities learned from large-scale multimodal training. Across three different language tasks, SeeTok matches or surpasses subword tokenizers while requiring 4.43 times fewer tokens and reducing FLOPs by 70.5%, with additional gains in cross-lingual generalization, robustness to typographic noise, and linguistic hierarchy. SeeTok signals a shift from symbolic tokenization to human-like visual reading, and takes a step toward more natural and cognitively inspired language models.
PDF11October 23, 2025