Strategie di Rendering del Testo per Modelli Linguistici Pixel-based
Text Rendering Strategies for Pixel Language Models
November 1, 2023
Autori: Jonas F. Lotz, Elizabeth Salesky, Phillip Rust, Desmond Elliott
cs.AI
Abstract
I modelli linguistici basati su pixel elaborano il testo renderizzato come immagini, il che consente loro di gestire qualsiasi scrittura, rendendoli un approccio promettente per la modellazione linguistica a vocabolario aperto. Tuttavia, gli approcci recenti utilizzano renderizzatori di testo che producono un ampio insieme di patch di input quasi equivalenti, il che può rivelarsi subottimale per i task downstream a causa della ridondanza nelle rappresentazioni di input. In questo articolo, esploriamo quattro approcci per il rendering del testo nel modello PIXEL (Rust et al., 2023) e scopriamo che un semplice rendering basato su bigrammi di caratteri migliora le prestazioni sui task a livello di frase senza compromettere le prestazioni sui task a livello di token o multilingue. Questa nuova strategia di rendering rende inoltre possibile addestrare un modello più compatto con soli 22 milioni di parametri che performa in modo equivalente al modello originale da 86 milioni di parametri. Le nostre analisi mostrano che il rendering basato su bigrammi di caratteri porta a un modello costantemente migliore, ma con uno spazio di embedding delle patch anisotropo, guidato da un bias nella frequenza delle patch, evidenziando le connessioni tra i modelli linguistici basati su patch di immagini e quelli basati su tokenizzazione.
English
Pixel-based language models process text rendered as images, which allows
them to handle any script, making them a promising approach to open vocabulary
language modelling. However, recent approaches use text renderers that produce
a large set of almost-equivalent input patches, which may prove sub-optimal for
downstream tasks, due to redundancy in the input representations. In this
paper, we investigate four approaches to rendering text in the PIXEL model
(Rust et al., 2023), and find that simple character bigram rendering brings
improved performance on sentence-level tasks without compromising performance
on token-level or multilingual tasks. This new rendering strategy also makes it
possible to train a more compact model with only 22M parameters that performs
on par with the original 86M parameter model. Our analyses show that character
bigram rendering leads to a consistently better model but with an anisotropic
patch embedding space, driven by a patch frequency bias, highlighting the
connections between image patch- and tokenization-based language models.