ピクセル言語モデルのためのテキストレンダリング戦略
Text Rendering Strategies for Pixel Language Models
November 1, 2023
著者: Jonas F. Lotz, Elizabeth Salesky, Phillip Rust, Desmond Elliott
cs.AI
要旨
ピクセルベースの言語モデルは、テキストを画像としてレンダリングして処理するため、あらゆる文字体系を扱うことが可能であり、オープンな語彙の言語モデリングにおいて有望なアプローチとなっています。しかし、最近の手法では、ほぼ同等の入力パッチを大量に生成するテキストレンダラーを使用しており、入力表現の冗長性により、下流タスクにおいて最適でない可能性があります。本論文では、PIXELモデル(Rust et al., 2023)におけるテキストレンダリングの4つのアプローチを調査し、シンプルな文字バイグラムレンダリングが、トークンレベルや多言語タスクの性能を損なうことなく、文レベルのタスクで改善された性能をもたらすことを明らかにしました。この新しいレンダリング戦略により、元の86Mパラメータモデルと同等の性能を発揮する、わずか22Mパラメータのよりコンパクトなモデルの訓練も可能となりました。我々の分析によると、文字バイグラムレンダリングは一貫して優れたモデルをもたらしますが、パッチ頻度の偏りによって駆動される異方性のパッチ埋め込み空間を形成し、画像パッチベースと言語モデルベースのトークン化の間の関連性を浮き彫りにしています。
English
Pixel-based language models process text rendered as images, which allows
them to handle any script, making them a promising approach to open vocabulary
language modelling. However, recent approaches use text renderers that produce
a large set of almost-equivalent input patches, which may prove sub-optimal for
downstream tasks, due to redundancy in the input representations. In this
paper, we investigate four approaches to rendering text in the PIXEL model
(Rust et al., 2023), and find that simple character bigram rendering brings
improved performance on sentence-level tasks without compromising performance
on token-level or multilingual tasks. This new rendering strategy also makes it
possible to train a more compact model with only 22M parameters that performs
on par with the original 86M parameter model. Our analyses show that character
bigram rendering leads to a consistently better model but with an anisotropic
patch embedding space, driven by a patch frequency bias, highlighting the
connections between image patch- and tokenization-based language models.