Tekstweergavestrategieën voor Pixel Taalmodellen

Samenvatting

Pixelgebaseerde taalmodelen verwerken tekst die als afbeeldingen is weergegeven, waardoor ze elk schrift kunnen hanteren, wat hen een veelbelovende aanpak maakt voor open-vocabulair taalmodeling. Recente benaderingen gebruiken echter tekstweergavemethoden die een grote set bijna-equivalente invoerpatches produceren, wat suboptimaal kan blijken voor downstream taken vanwege redundantie in de invoerrepresentaties. In dit artikel onderzoeken we vier benaderingen voor het weergeven van tekst in het PIXEL-model (Rust et al., 2023), en we ontdekken dat een eenvoudige weergave van karakterbigrammen een verbeterde prestatie oplevert op taken op zinsniveau zonder in te boeten op prestaties op tokenniveau of meertalige taken. Deze nieuwe weergavestrategie maakt het ook mogelijk om een compacter model te trainen met slechts 22M parameters dat even goed presteert als het oorspronkelijke model met 86M parameters. Onze analyses tonen aan dat karakterbigramweergave leidt tot een consistent beter model, maar met een anisotrope patchembeddingruimte, gedreven door een patchfrequentiebias, wat de verbanden tussen beeldpatch- en tokenisatiegebaseerde taalmodelen benadrukt.

English

Pixel-based language models process text rendered as images, which allows them to handle any script, making them a promising approach to open vocabulary language modelling. However, recent approaches use text renderers that produce a large set of almost-equivalent input patches, which may prove sub-optimal for downstream tasks, due to redundancy in the input representations. In this paper, we investigate four approaches to rendering text in the PIXEL model (Rust et al., 2023), and find that simple character bigram rendering brings improved performance on sentence-level tasks without compromising performance on token-level or multilingual tasks. This new rendering strategy also makes it possible to train a more compact model with only 22M parameters that performs on par with the original 86M parameter model. Our analyses show that character bigram rendering leads to a consistently better model but with an anisotropic patch embedding space, driven by a patch frequency bias, highlighting the connections between image patch- and tokenization-based language models.

Tekstweergavestrategieën voor Pixel Taalmodellen

Text Rendering Strategies for Pixel Language Models

Samenvatting

Support