Decodificare la Diversità: Una Rassegna del Panorama della Ricerca AI in India

Abstract

Questa rassegna fornisce una panoramica completa delle direzioni di ricerca sui modelli linguistici di grandi dimensioni (LLM) per le lingue indiane. Le lingue indiane sono quelle parlate nel subcontinente indiano, tra cui India, Pakistan, Bangladesh, Sri Lanka, Nepal e Bhutan, tra gli altri. Queste lingue possiedono un ricco patrimonio culturale e linguistico e sono parlate da oltre 1,5 miliardi di persone in tutto il mondo. Con l'enorme potenziale di mercato e la crescente domanda di applicazioni basate sull'elaborazione del linguaggio naturale (NLP) in lingue diverse, le applicazioni generative per le lingue indiane presentano sfide e opportunità uniche per la ricerca. Il nostro articolo approfondisce i recenti progressi nella modellazione generativa per le lingue indiane, contribuendo con una tassonomia delle direzioni di ricerca e catalogando 84 pubblicazioni recenti. Le direzioni di ricerca esaminate in questo articolo includono lo sviluppo di LLM, il fine-tuning di LLM esistenti, lo sviluppo di corpora, benchmarking e valutazione, nonché pubblicazioni su tecniche, strumenti e applicazioni specifiche. Abbiamo riscontrato che i ricercatori nelle varie pubblicazioni sottolineano le sfide legate alla limitata disponibilità di dati, alla mancanza di standardizzazione e alle particolari complessità linguistiche delle lingue indiane. Questo lavoro mira a servire come una risorsa preziosa per ricercatori e professionisti che operano nel campo dell'NLP, in particolare quelli focalizzati sulle lingue indiane, e contribuisce allo sviluppo di applicazioni LLM più accurate ed efficienti per queste lingue.

English

This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Decodificare la Diversità: Una Rassegna del Panorama della Ricerca AI in India

Decoding the Diversity: A Review of the Indic AI Research Landscape

Abstract

Support