Stratégies de rendu de texte pour les modèles de langage par pixels

papers.abstract

Les modèles de langage basés sur les pixels traitent le texte rendu sous forme d'images, ce qui leur permet de gérer n'importe quel script, en faisant une approche prometteuse pour la modélisation du langage à vocabulaire ouvert. Cependant, les approches récentes utilisent des moteurs de rendu de texte qui produisent un grand ensemble de patches d'entrée quasi équivalents, ce qui peut s'avérer sous-optimal pour les tâches en aval, en raison de la redondance dans les représentations d'entrée. Dans cet article, nous étudions quatre approches de rendu de texte dans le modèle PIXEL (Rust et al., 2023), et constatons que le rendu simple de bigrammes de caractères améliore les performances sur les tâches au niveau de la phrase sans compromettre les performances sur les tâches au niveau des tokens ou multilingues. Cette nouvelle stratégie de rendu permet également d'entraîner un modèle plus compact avec seulement 22 millions de paramètres, qui performe à égalité avec le modèle original de 86 millions de paramètres. Nos analyses montrent que le rendu de bigrammes de caractères conduit à un modèle globalement meilleur mais avec un espace d'embedding de patches anisotrope, influencé par un biais de fréquence des patches, mettant en lumière les connexions entre les modèles de langage basés sur les patches d'images et ceux basés sur la tokenisation.

English

Pixel-based language models process text rendered as images, which allows them to handle any script, making them a promising approach to open vocabulary language modelling. However, recent approaches use text renderers that produce a large set of almost-equivalent input patches, which may prove sub-optimal for downstream tasks, due to redundancy in the input representations. In this paper, we investigate four approaches to rendering text in the PIXEL model (Rust et al., 2023), and find that simple character bigram rendering brings improved performance on sentence-level tasks without compromising performance on token-level or multilingual tasks. This new rendering strategy also makes it possible to train a more compact model with only 22M parameters that performs on par with the original 86M parameter model. Our analyses show that character bigram rendering leads to a consistently better model but with an anisotropic patch embedding space, driven by a patch frequency bias, highlighting the connections between image patch- and tokenization-based language models.

Stratégies de rendu de texte pour les modèles de langage par pixels

Text Rendering Strategies for Pixel Language Models

papers.abstract

Support