ChatPaper.aiChatPaper

Entschlüsselung der Vielfalt: Eine Überprüfung der KI-Forschungslandschaft in Indien

Decoding the Diversity: A Review of the Indic AI Research Landscape

June 13, 2024
Autoren: Sankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha
cs.AI

Zusammenfassung

Dieses Übersichtspapier bietet einen umfassenden Überblick über die Forschungsrichtungen großer Sprachmodelle (LLM) innerhalb der Indischen Sprachen. Indische Sprachen sind diejenigen, die im indischen Subkontinent gesprochen werden, einschließlich Indien, Pakistan, Bangladesch, Sri Lanka, Nepal und Bhutan, unter anderem. Diese Sprachen haben ein reiches kulturelles und sprachliches Erbe und werden weltweit von über 1,5 Milliarden Menschen gesprochen. Mit dem enormen Marktpotenzial und der wachsenden Nachfrage nach Anwendungen für die natürliche Sprachverarbeitung (NLP) in verschiedenen Sprachen stellen generative Anwendungen für Indische Sprachen einzigartige Herausforderungen und Chancen für die Forschung dar. Unser Papier taucht tief in die jüngsten Fortschritte im Bereich der generativen Modellierung von Indischen Sprachen ein, indem es mit einer Taxonomie von Forschungsrichtungen beiträgt und 84 aktuelle Veröffentlichungen tabellarisch darstellt. Die in diesem Papier untersuchten Forschungsrichtungen umfassen die Entwicklung von LLMs, das Feintuning bestehender LLMs, die Entwicklung von Korpora, Benchmarking und Evaluation sowie Veröffentlichungen zu spezifischen Techniken, Tools und Anwendungen. Wir stellten fest, dass Forscher in den Veröffentlichungen die Herausforderungen hervorheben, die mit der begrenzten Datenverfügbarkeit, dem Mangel an Standardisierung und den besonderen sprachlichen Komplexitäten der Indischen Sprachen verbunden sind. Diese Arbeit zielt darauf ab, als wertvolle Ressource für Forscher und Praktiker im Bereich der NLP zu dienen, insbesondere für diejenigen, die sich auf Indische Sprachen konzentrieren, und trägt zur Entwicklung genauerer und effizienterer LLM-Anwendungen für diese Sprachen bei.
English
This review paper provides a comprehensive overview of large language model (LLM) research directions within Indic languages. Indic languages are those spoken in the Indian subcontinent, including India, Pakistan, Bangladesh, Sri Lanka, Nepal, and Bhutan, among others. These languages have a rich cultural and linguistic heritage and are spoken by over 1.5 billion people worldwide. With the tremendous market potential and growing demand for natural language processing (NLP) based applications in diverse languages, generative applications for Indic languages pose unique challenges and opportunities for research. Our paper deep dives into the recent advancements in Indic generative modeling, contributing with a taxonomy of research directions, tabulating 84 recent publications. Research directions surveyed in this paper include LLM development, fine-tuning existing LLMs, development of corpora, benchmarking and evaluation, as well as publications around specific techniques, tools, and applications. We found that researchers across the publications emphasize the challenges associated with limited data availability, lack of standardization, and the peculiar linguistic complexities of Indic languages. This work aims to serve as a valuable resource for researchers and practitioners working in the field of NLP, particularly those focused on Indic languages, and contributes to the development of more accurate and efficient LLM applications for these languages.

Summary

AI-Generated Summary

PDF51December 6, 2024