ChatPaper.aiChatPaper

См. текст: От токенизации к визуальному чтению

See the Text: From Tokenization to Visual Reading

October 21, 2025
Авторы: Ling Xing, Alex Jinpeng Wang, Rui Yan, Hongyu Qu, Zechao Li, Jinhui Tang
cs.AI

Аннотация

Люди воспринимают текст. Человеческое чтение основано на распознавании слов как визуальных объектов, включая их формы, расположение и паттерны, прежде чем связать их со смыслом, что позволяет эффективно справляться с опечатками, искажёнными шрифтами и различными системами письма. Однако современные крупные языковые модели (LLM) полагаются на субсловную токенизацию, разбивая текст на фрагменты из фиксированного словаря. Хотя этот подход эффективен для языков с большими ресурсами, он чрезмерно сегментирует языки с ограниченными ресурсами, создавая длинные, лингвистически бессмысленные последовательности и увеличивая вычислительные затраты. В данной работе мы бросаем вызов этой устоявшейся парадигме и движемся в сторону визуально-ориентированной альтернативы. Наш метод, SeeTok, преобразует текст в изображения (визуальный текст) и использует предобученные мультимодальные LLM для их интерпретации, повторно применяя сильные способности OCR и выравнивания текста и изображений, полученные в ходе масштабного мультимодального обучения. В трёх различных языковых задачах SeeTok демонстрирует результаты, сопоставимые или превосходящие субсловные токенизаторы, при этом требуя в 4,43 раза меньше токенов и сокращая FLOPs на 70,5%, с дополнительными преимуществами в кросс-лингвистической генерализации, устойчивости к типографическим искажениям и лингвистической иерархии. SeeTok знаменует переход от символической токенизации к визуальному чтению, подобному человеческому, и делает шаг в сторону более естественных и когнитивно вдохновлённых языковых моделей.
English
People see text. Humans read by recognizing words as visual objects, including their shapes, layouts, and patterns, before connecting them to meaning, which enables us to handle typos, distorted fonts, and various scripts effectively. Modern large language models (LLMs), however, rely on subword tokenization, fragmenting text into pieces from a fixed vocabulary. While effective for high-resource languages, this approach over-segments low-resource languages, yielding long, linguistically meaningless sequences and inflating computation. In this work, we challenge this entrenched paradigm and move toward a vision-centric alternative. Our method, SeeTok, renders text as images (visual-text) and leverages pretrained multimodal LLMs to interpret them, reusing strong OCR and text-vision alignment abilities learned from large-scale multimodal training. Across three different language tasks, SeeTok matches or surpasses subword tokenizers while requiring 4.43 times fewer tokens and reducing FLOPs by 70.5%, with additional gains in cross-lingual generalization, robustness to typographic noise, and linguistic hierarchy. SeeTok signals a shift from symbolic tokenization to human-like visual reading, and takes a step toward more natural and cognitively inspired language models.
PDF11October 23, 2025