Estratégias de Renderização de Texto para Modelos de Linguagem em Pixels
Text Rendering Strategies for Pixel Language Models
November 1, 2023
Autores: Jonas F. Lotz, Elizabeth Salesky, Phillip Rust, Desmond Elliott
cs.AI
Resumo
Modelos de linguagem baseados em pixels processam textos renderizados como imagens, o que permite que eles lidem com qualquer script, tornando-os uma abordagem promissora para modelagem de linguagem de vocabulário aberto. No entanto, abordagens recentes utilizam renderizadores de texto que produzem um grande conjunto de patches de entrada quase equivalentes, o que pode se mostrar subótimo para tarefas subsequentes, devido à redundância nas representações de entrada. Neste artigo, investigamos quatro abordagens para renderizar texto no modelo PIXEL (Rust et al., 2023) e descobrimos que a renderização simples de bigramas de caracteres traz um desempenho aprimorado em tarefas de nível de sentença sem comprometer o desempenho em tarefas de nível de token ou multilingues. Essa nova estratégia de renderização também possibilita treinar um modelo mais compacto com apenas 22 milhões de parâmetros que tem um desempenho equivalente ao modelo original com 86 milhões de parâmetros. Nossas análises mostram que a renderização de bigramas de caracteres leva a um modelo consistentemente melhor, mas com um espaço de incorporação de patches anisotrópico, impulsionado por um viés de frequência de patches, destacando as conexões entre modelos de linguagem baseados em patches de imagem e em tokenização.
English
Pixel-based language models process text rendered as images, which allows
them to handle any script, making them a promising approach to open vocabulary
language modelling. However, recent approaches use text renderers that produce
a large set of almost-equivalent input patches, which may prove sub-optimal for
downstream tasks, due to redundancy in the input representations. In this
paper, we investigate four approaches to rendering text in the PIXEL model
(Rust et al., 2023), and find that simple character bigram rendering brings
improved performance on sentence-level tasks without compromising performance
on token-level or multilingual tasks. This new rendering strategy also makes it
possible to train a more compact model with only 22M parameters that performs
on par with the original 86M parameter model. Our analyses show that character
bigram rendering leads to a consistently better model but with an anisotropic
patch embedding space, driven by a patch frequency bias, highlighting the
connections between image patch- and tokenization-based language models.