Оценка производительности токенизатора крупных языковых моделей на официальных индийских языках
Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages
November 19, 2024
Авторы: S. Tamang, D. J. Bora
cs.AI
Аннотация
Большие языковые модели (LLM) на основе архитектур трансформеров революционизировали различные области, причем токенизация играет ключевую роль в их предварительной обработке и настройке. В мультиязычных моделях, особенно тех, которые адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлено всестороннее оценивание токенизаторов, использованных 12 LLM для всех 22 официальных языков Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько моделей, специализированных на индийские языки, превосходя их в 14 языках. Заметные выводы включают в себя более эффективную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков, а также ограниченную производительность Project Indus в некоторых языках. Это исследование подчеркивает критическое значение разработки целевых стратегий токенизации для мультиязычных и индийских моделей, заложив основу для будущих улучшений в проектировании токенизаторов для улучшения языкового охвата и эффективности модели.
English
Large Language Models (LLMs) based on transformer architectures have
revolutionized a variety of domains, with tokenization playing a pivotal role
in their pre-processing and fine-tuning stages. In multilingual models,
particularly those tailored for Indic languages, effective tokenization is
crucial for optimizing performance. This paper presents a comprehensive
evaluation of tokenizers used by 12 LLMs across all 22 official languages of
India, with a focus on comparing the efficiency of their tokenization
processes. We employed the Normalized Sequence Length (NSL) as a key metric in
our analysis. Our findings reveal that the SUTRA tokenizer outperforms all
other models, including several Indic-specific models, excelling in 14
languages. Notable insights include the SUTRA tokenizer's superior handling of
Indic languages, GPT-4o's advancement over its predecessor GPT-4 in processing
Indian languages, and the limited performance of Project Indus in certain
languages. This study underscores the critical importance of developing
targeted tokenization strategies for multilingual and Indic-centric models,
laying the groundwork for future improvements in tokenizer design to enhance
linguistic coverage and model efficiency.Summary
AI-Generated Summary