Estrategias de Renderizado de Texto para Modelos de Lenguaje Basados en Píxeles

Resumen

Los modelos de lenguaje basados en píxeles procesan texto renderizado como imágenes, lo que les permite manejar cualquier escritura, convirtiéndolos en un enfoque prometedor para el modelado de lenguaje de vocabulario abierto. Sin embargo, los enfoques recientes utilizan renderizadores de texto que producen un gran conjunto de parches de entrada casi equivalentes, lo que puede resultar subóptimo para tareas posteriores debido a la redundancia en las representaciones de entrada. En este artículo, investigamos cuatro enfoques para renderizar texto en el modelo PIXEL (Rust et al., 2023), y encontramos que el renderizado simple de bigramas de caracteres mejora el rendimiento en tareas a nivel de oración sin comprometer el rendimiento en tareas a nivel de token o multilingües. Esta nueva estrategia de renderizado también hace posible entrenar un modelo más compacto con solo 22M de parámetros que rinde a la par con el modelo original de 86M de parámetros. Nuestros análisis muestran que el renderizado de bigramas de caracteres conduce a un modelo consistentemente mejor, pero con un espacio de incrustación de parches anisotrópico, impulsado por un sesgo en la frecuencia de los parches, destacando las conexiones entre los modelos de lenguaje basados en parches de imagen y los basados en tokenización.

English

Pixel-based language models process text rendered as images, which allows them to handle any script, making them a promising approach to open vocabulary language modelling. However, recent approaches use text renderers that produce a large set of almost-equivalent input patches, which may prove sub-optimal for downstream tasks, due to redundancy in the input representations. In this paper, we investigate four approaches to rendering text in the PIXEL model (Rust et al., 2023), and find that simple character bigram rendering brings improved performance on sentence-level tasks without compromising performance on token-level or multilingual tasks. This new rendering strategy also makes it possible to train a more compact model with only 22M parameters that performs on par with the original 86M parameter model. Our analyses show that character bigram rendering leads to a consistently better model but with an anisotropic patch embedding space, driven by a patch frequency bias, highlighting the connections between image patch- and tokenization-based language models.

Estrategias de Renderizado de Texto para Modelos de Lenguaje Basados en Píxeles

Text Rendering Strategies for Pixel Language Models

Resumen

Support