Расшифровка разнообразия: обзор индийского исследовательского ландшафта в области искусственного интеллекта.
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
Авторы: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
Аннотация
Эта обзорная статья предоставляет всесторонний обзор направлений исследований по крупным языковым моделям (LLM) в рамках индийских языков. Индийские языки - это языки, которые говорятся на Индийском субконтиненте, включая Индию, Пакистан, Бангладеш, Шри-Ланку, Непал и Бутан, среди прочих. Эти языки обладают богатым культурным и языковым наследием и говорятся более чем 1,5 миллиардами людей по всему миру. С огромным рыночным потенциалом и растущим спросом на приложения на основе обработки естественного языка (NLP) на разных языках, генеративные приложения для индийских языков представляют уникальные вызовы и возможности для исследований. Наша статья углубляется в недавние достижения в области генеративного моделирования для индийских языков, внося свой вклад с помощью таксономии направлений исследований, составляя таблицу из 84 недавних публикаций. Исследуемые в этой статье направления исследований включают разработку LLM, настройку существующих LLM, создание корпусов, тестирование и оценку, а также публикации по конкретным техникам, инструментам и приложениям. Мы обнаружили, что исследователи в своих публикациях акцентируют внимание на вызовах, связанных с ограниченной доступностью данных, отсутствием стандартизации и особыми лингвистическими сложностями индийских языков. Эта работа призвана служить ценным ресурсом для исследователей и практиков, работающих в области NLP, особенно тех, кто сосредоточен на индийских языках, и способствует развитию более точных и эффективных приложений LLM для этих языков.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.Summary
AI-Generated Summary