ChatPaper.aiChatPaper

多様性の解読:インドAI研究の現状レビュー

Decoding the Diversity: A Review of the Indic AI Research Landscape

June 13, 2024
著者: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI

要旨

本レビュー論文は、インド系言語における大規模言語モデル(LLM)の研究動向を包括的に概観するものである。インド系言語とは、インド、パキスタン、バングラデシュ、スリランカ、ネパール、ブータンなど、インド亜大陸で話される言語を指す。これらの言語は豊かな文化的・言語的遺産を持ち、世界中で15億人以上によって話されている。多様な言語における自然言語処理(NLP)ベースのアプリケーションに対する市場の大きな可能性と需要の高まりを背景に、インド系言語の生成アプリケーションは、研究において独特の課題と機会を提供している。本論文は、インド系言語の生成モデリングにおける最近の進展を深く掘り下げ、研究動向の分類体系を提示し、84の最近の論文を表形式でまとめている。本論文で調査した研究動向には、LLMの開発、既存のLLMのファインチューニング、コーパスの開発、ベンチマーキングと評価、特定の技術、ツール、アプリケーションに関する論文が含まれる。これらの論文を通じて、研究者たちは、データの可用性の限界、標準化の欠如、インド系言語の特有の言語的複雑さに関連する課題を強調していることがわかった。本論文は、特にインド系言語に焦点を当てたNLP分野の研究者や実務者にとって貴重なリソースとなることを目指しており、これらの言語におけるより正確で効率的なLLMアプリケーションの開発に貢献するものである。
English
This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Summary

AI-Generated Summary

PDF51December 6, 2024