Стратегии визуализации текста для пиксельных языковых моделей
Text Rendering Strategies for Pixel Language Models
November 1, 2023
Авторы: Jonas F. Lotz, Elizabeth Salesky, Phillip Rust, Desmond Elliott
cs.AI
Аннотация
Пиксельные языковые модели обрабатывают текст, представленный в виде изображений, что позволяет им работать с любыми системами письма, делая их перспективным подходом для моделирования языка с открытым словарём. Однако современные методы используют текстовые рендереры, которые создают большое количество почти эквивалентных входных патчей, что может оказаться неоптимальным для последующих задач из-за избыточности во входных представлениях. В данной статье мы исследуем четыре подхода к рендерингу текста в модели PIXEL (Rust et al., 2023) и обнаруживаем, что простой рендеринг биграмм символов улучшает производительность на задачах уровня предложений, не ухудшая результаты на задачах уровня токенов или многоязычных задачах. Эта новая стратегия рендеринга также позволяет обучить более компактную модель всего с 22 миллионами параметров, которая работает наравне с исходной моделью с 86 миллионами параметров. Наши анализы показывают, что рендеринг биграмм символов приводит к более качественной модели, но с анизотропным пространством встраивания патчей, обусловленным смещением частоты патчей, что подчеркивает связь между языковыми моделями, основанными на патчах изображений и токенизации.
English
Pixel-based language models process text rendered as images, which allows
them to handle any script, making them a promising approach to open vocabulary
language modelling. However, recent approaches use text renderers that produce
a large set of almost-equivalent input patches, which may prove sub-optimal for
downstream tasks, due to redundancy in the input representations. In this
paper, we investigate four approaches to rendering text in the PIXEL model
(Rust et al., 2023), and find that simple character bigram rendering brings
improved performance on sentence-level tasks without compromising performance
on token-level or multilingual tasks. This new rendering strategy also makes it
possible to train a more compact model with only 22M parameters that performs
on par with the original 86M parameter model. Our analyses show that character
bigram rendering leads to a consistently better model but with an anisotropic
patch embedding space, driven by a patch frequency bias, highlighting the
connections between image patch- and tokenization-based language models.