Evaluación del rendimiento del tokenizador de modelos de lenguaje grandes en los diferentes idiomas oficiales de la India.
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages
November 19, 2024
Autores: S. Tamang, D. J. Bora
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) basados en arquitecturas de transformadores han revolucionado una variedad de dominios, con la tokenización desempeñando un papel fundamental en sus etapas de preprocesamiento y ajuste fino. En modelos multilingües, especialmente aquellos adaptados para lenguas indias, una tokenización efectiva es crucial para optimizar el rendimiento. Este documento presenta una evaluación exhaustiva de los tokenizadores utilizados por 12 LLMs en las 22 lenguas oficiales de la India, centrándose en comparar la eficiencia de sus procesos de tokenización. Empleamos la Longitud Normalizada de Secuencia (NSL) como métrica clave en nuestro análisis. Nuestros hallazgos revelan que el tokenizador SUTRA supera a todos los demás modelos, incluidos varios modelos específicos para lenguas indias, destacándose en 14 idiomas. Entre las percepciones destacadas se incluyen el manejo superior de lenguas indias por parte del tokenizador SUTRA, el avance de GPT-4o sobre su predecesor GPT-4 en el procesamiento de lenguas indias, y el rendimiento limitado de Project Indus en ciertas lenguas. Este estudio subraya la importancia crítica de desarrollar estrategias de tokenización dirigidas para modelos multilingües y centrados en lenguas indias, sentando las bases para futuras mejoras en el diseño de tokenizadores para mejorar la cobertura lingüística y la eficiencia del modelo.
English
Large Language Models (LLMs) based on transformer architectures have
revolutionized a variety of domains, with tokenization playing a pivotal role
in their pre-processing and fine-tuning stages. In multilingual models,
particularly those tailored for Indic languages, effective tokenization is
crucial for optimizing performance. This paper presents a comprehensive
evaluation of tokenizers used by 12 LLMs across all 22 official languages of
India, with a focus on comparing the efficiency of their tokenization
processes. We employed the Normalized Sequence Length (NSL) as a key metric in
our analysis. Our findings reveal that the SUTRA tokenizer outperforms all
other models, including several Indic-specific models, excelling in 14
languages. Notable insights include the SUTRA tokenizer's superior handling of
Indic languages, GPT-4o's advancement over its predecessor GPT-4 in processing
Indian languages, and the limited performance of Project Indus in certain
languages. This study underscores the critical importance of developing
targeted tokenization strategies for multilingual and Indic-centric models,
laying the groundwork for future improvements in tokenizer design to enhance
linguistic coverage and model efficiency.Summary
AI-Generated Summary