Decodificare la Diversità: Una Rassegna del Panorama della Ricerca AI in India
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
Autori: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
Abstract
Questa rassegna fornisce una panoramica completa delle direzioni di ricerca sui modelli linguistici di grandi dimensioni (LLM) per le lingue indiane. Le lingue indiane sono quelle parlate nel subcontinente indiano, tra cui India, Pakistan, Bangladesh, Sri Lanka, Nepal e Bhutan, tra gli altri. Queste lingue possiedono un ricco patrimonio culturale e linguistico e sono parlate da oltre 1,5 miliardi di persone in tutto il mondo. Con l'enorme potenziale di mercato e la crescente domanda di applicazioni basate sull'elaborazione del linguaggio naturale (NLP) in lingue diverse, le applicazioni generative per le lingue indiane presentano sfide e opportunità uniche per la ricerca. Il nostro articolo approfondisce i recenti progressi nella modellazione generativa per le lingue indiane, contribuendo con una tassonomia delle direzioni di ricerca e catalogando 84 pubblicazioni recenti. Le direzioni di ricerca esaminate in questo articolo includono lo sviluppo di LLM, il fine-tuning di LLM esistenti, lo sviluppo di corpora, benchmarking e valutazione, nonché pubblicazioni su tecniche, strumenti e applicazioni specifiche. Abbiamo riscontrato che i ricercatori nelle varie pubblicazioni sottolineano le sfide legate alla limitata disponibilità di dati, alla mancanza di standardizzazione e alle particolari complessità linguistiche delle lingue indiane. Questo lavoro mira a servire come una risorsa preziosa per ricercatori e professionisti che operano nel campo dell'NLP, in particolare quelli focalizzati sulle lingue indiane, e contribuisce allo sviluppo di applicazioni LLM più accurate ed efficienti per queste lingue.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.