Décoder la diversité : Un panorama de la recherche en IA dans le contexte indien
Decoding the Diversity: A Review of the Indic AI Research Landscape
June 13, 2024
Auteurs: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI
Résumé
Cet article de synthèse propose un aperçu complet des axes de recherche sur les modèles de langage de grande taille (LLM) dans les langues indiennes. Les langues indiennes sont celles parlées dans le sous-continent indien, incluant l'Inde, le Pakistan, le Bangladesh, le Sri Lanka, le Népal et le Bhoutan, entre autres. Ces langues possèdent un riche héritage culturel et linguistique et sont parlées par plus de 1,5 milliard de personnes dans le monde. Avec l'énorme potentiel de marché et la demande croissante d'applications basées sur le traitement automatique du langage naturel (TALN) dans des langues diverses, les applications génératives pour les langues indiennes présentent des défis et des opportunités uniques pour la recherche. Notre article plonge en profondeur dans les avancées récentes en modélisation générative pour les langues indiennes, en proposant une taxonomie des axes de recherche et en recensant 84 publications récentes. Les axes de recherche examinés dans cet article incluent le développement de LLM, le fine-tuning de LLM existants, la création de corpus, l'établissement de benchmarks et l'évaluation, ainsi que des publications sur des techniques, outils et applications spécifiques. Nous avons constaté que les chercheurs à travers ces publications mettent en avant les défis liés à la disponibilité limitée des données, au manque de standardisation et aux complexités linguistiques particulières des langues indiennes. Ce travail vise à servir de ressource précieuse pour les chercheurs et praticiens travaillant dans le domaine du TALN, en particulier ceux axés sur les langues indiennes, et contribue au développement d'applications LLM plus précises et efficaces pour ces langues.
English
This review paper provides a comprehensive overview of large language model
(LLM) research directions within Indic languages. Indic languages are those
spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri
Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural
and linguistic heritage and are spoken by over 1.5 billion people worldwide.
With the tremendous market potential and growing demand for natural language
processing (NLP) based applications in diverse languages, generative
applications for Indic languages pose unique challenges and opportunities for
research. Our paper deep dives into the recent advancements in Indic generative
modeling, contributing with a taxonomy of research directions, tabulating 84
recent publications. Research directions surveyed in this paper include LLM
development, fine-tuning existing LLMs, development of corpora, benchmarking
and evaluation, as well as publications around specific techniques, tools, and
applications. We found that researchers across the publications emphasize the
challenges associated with limited data availability, lack of standardization,
and the peculiar linguistic complexities of Indic languages. This work aims to
serve as a valuable resource for researchers and practitioners working in the
field of NLP, particularly those focused on Indic languages, and contributes to
the development of more accurate and efficient LLM applications for these
languages.Summary
AI-Generated Summary