Décoder la diversité : Un panorama de la recherche en IA dans le contexte indien

Résumé

Cet article de synthèse propose un aperçu complet des axes de recherche sur les modèles de langage de grande taille (LLM) dans les langues indiennes. Les langues indiennes sont celles parlées dans le sous-continent indien, incluant l'Inde, le Pakistan, le Bangladesh, le Sri Lanka, le Népal et le Bhoutan, entre autres. Ces langues possèdent un riche héritage culturel et linguistique et sont parlées par plus de 1,5 milliard de personnes dans le monde. Avec l'énorme potentiel de marché et la demande croissante d'applications basées sur le traitement automatique du langage naturel (TALN) dans des langues diverses, les applications génératives pour les langues indiennes présentent des défis et des opportunités uniques pour la recherche. Notre article plonge en profondeur dans les avancées récentes en modélisation générative pour les langues indiennes, en proposant une taxonomie des axes de recherche et en recensant 84 publications récentes. Les axes de recherche examinés dans cet article incluent le développement de LLM, le fine-tuning de LLM existants, la création de corpus, l'établissement de benchmarks et l'évaluation, ainsi que des publications sur des techniques, outils et applications spécifiques. Nous avons constaté que les chercheurs à travers ces publications mettent en avant les défis liés à la disponibilité limitée des données, au manque de standardisation et aux complexités linguistiques particulières des langues indiennes. Ce travail vise à servir de ressource précieuse pour les chercheurs et praticiens travaillant dans le domaine du TALN, en particulier ceux axés sur les langues indiennes, et contribue au développement d'applications LLM plus précises et efficaces pour ces langues.

English

This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Décoder la diversité : Un panorama de la recherche en IA dans le contexte indien

Decoding the Diversity: A Review of the Indic AI Research Landscape

Résumé

Support