ChatPaper.aiChatPaper

Оценка производительности токенизатора крупных языковых моделей на официальных индийских языках

Evaluating Tokenizer Performance of Large Language Models Across Official Indian Languages

November 19, 2024
Авторы: S. Tamang, D. J. Bora
cs.AI

Аннотация

Большие языковые модели (LLM) на основе архитектур трансформеров революционизировали различные области, причем токенизация играет ключевую роль в их предварительной обработке и настройке. В мультиязычных моделях, особенно тех, которые адаптированы для индийских языков, эффективная токенизация имеет решающее значение для оптимизации производительности. В данной статье представлено всестороннее оценивание токенизаторов, использованных 12 LLM для всех 22 официальных языков Индии, с акцентом на сравнение эффективности их процессов токенизации. Мы использовали нормализованную длину последовательности (NSL) в качестве ключевой метрики в нашем анализе. Наши результаты показывают, что токенизатор SUTRA превосходит все другие модели, включая несколько моделей, специализированных на индийские языки, превосходя их в 14 языках. Заметные выводы включают в себя более эффективную обработку индийских языков токенизатором SUTRA, прогресс GPT-4o по сравнению с его предшественником GPT-4 в обработке индийских языков, а также ограниченную производительность Project Indus в некоторых языках. Это исследование подчеркивает критическое значение разработки целевых стратегий токенизации для мультиязычных и индийских моделей, заложив основу для будущих улучшений в проектировании токенизаторов для улучшения языкового охвата и эффективности модели.
English
Large Language Models (LLMs) based on transformer architectures have revolutionized a variety of domains, with tokenization playing a pivotal role in their pre-processing and fine-tuning stages. In multilingual models, particularly those tailored for Indic languages, effective tokenization is crucial for optimizing performance. This paper presents a comprehensive evaluation of tokenizers used by 12 LLMs across all 22 official languages of India, with a focus on comparing the efficiency of their tokenization processes. We employed the Normalized Sequence Length (NSL) as a key metric in our analysis. Our findings reveal that the SUTRA tokenizer outperforms all other models, including several Indic-specific models, excelling in 14 languages. Notable insights include the SUTRA tokenizer's superior handling of Indic languages, GPT-4o's advancement over its predecessor GPT-4 in processing Indian languages, and the limited performance of Project Indus in certain languages. This study underscores the critical importance of developing targeted tokenization strategies for multilingual and Indic-centric models, laying the groundwork for future improvements in tokenizer design to enhance linguistic coverage and model efficiency.

Summary

AI-Generated Summary

PDF72November 20, 2024