Textrendering-Strategien für Pixel-Sprachmodelle
Text Rendering Strategies for Pixel Language Models
November 1, 2023
Autoren: Jonas F. Lotz, Elizabeth Salesky, Phillip Rust, Desmond Elliott
cs.AI
Zusammenfassung
Pixel-basierte Sprachmodelle verarbeiten Text, der als Bild dargestellt wird, was es ihnen ermöglicht, jede Schriftart zu handhaben und sie zu einem vielversprechenden Ansatz für die Modellierung offener Vokabulare macht. Allerdings verwenden aktuelle Ansätze Text-Renderer, die eine große Menge von nahezu äquivalenten Eingabe-Patches erzeugen, was aufgrund der Redundanz in den Eingabedarstellungen für nachgelagerte Aufgaben suboptimal sein kann. In diesem Artikel untersuchen wir vier Ansätze zur Darstellung von Text im PIXEL-Modell (Rust et al., 2023) und stellen fest, dass eine einfache Bigramm-Darstellung auf Zeichenebene die Leistung bei Aufgaben auf Satzebene verbessert, ohne die Leistung bei Aufgaben auf Token-Ebene oder in mehrsprachigen Kontexten zu beeinträchtigen. Diese neue Darstellungsstrategie ermöglicht es auch, ein kompakteres Modell mit nur 22M Parametern zu trainieren, das mit dem ursprünglichen Modell mit 86M Parametern gleichzieht. Unsere Analysen zeigen, dass die Bigramm-Darstellung auf Zeichenebene zu einem durchweg besseren Modell führt, jedoch mit einem anisotropen Patch-Einbettungsraum, der durch eine Verzerrung in der Patch-Häufigkeit getrieben wird. Dies unterstreicht die Verbindungen zwischen bildbasierten Patch- und tokenbasierten Sprachmodellen.
English
Pixel-based language models process text rendered as images, which allows
them to handle any script, making them a promising approach to open vocabulary
language modelling. However, recent approaches use text renderers that produce
a large set of almost-equivalent input patches, which may prove sub-optimal for
downstream tasks, due to redundancy in the input representations. In this
paper, we investigate four approaches to rendering text in the PIXEL model
(Rust et al., 2023), and find that simple character bigram rendering brings
improved performance on sentence-level tasks without compromising performance
on token-level or multilingual tasks. This new rendering strategy also makes it
possible to train a more compact model with only 22M parameters that performs
on par with the original 86M parameter model. Our analyses show that character
bigram rendering leads to a consistently better model but with an anisotropic
patch embedding space, driven by a patch frequency bias, highlighting the
connections between image patch- and tokenization-based language models.