ChatPaper.aiChatPaper

SeaLLMs 3 : Modèles de Langage Multilingues à Grande Échelle Ouverts et Conversationnels pour les Langues d'Asie du Sud-Est

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

July 29, 2024
Auteurs: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont démontré des capacités remarquables dans diverses tâches, mais leur développement s'est principalement concentré sur les langues à ressources élevées comme l'anglais et le chinois, laissant les langues à ressources limitées sous-représentées. Pour remédier à cette disparité, nous présentons SeaLLMs 3, la dernière itération de la famille de modèles SeaLLMs, conçue spécifiquement pour les langues d'Asie du Sud-Est. Cette région, caractérisée par une riche diversité linguistique, a longtemps manqué de soutien technologique adéquat en matière de langues. SeaLLMs 3 vise à combler cette lacune en couvrant un large éventail de langues parlées dans cette région, notamment l'anglais, le chinois, l'indonésien, le vietnamien, le thaï, le tagalog, le malais, le birman, le khmer, le lao, le tamoul et le javanais. En exploitant des techniques efficaces d'amélioration linguistique et un ensemble de données spécialement construit pour l'ajustement des instructions, SeaLLMs 3 réduit considérablement les coûts de formation tout en maintenant des performances élevées et une grande polyvalence. Notre modèle excelle dans des tâches telles que la connaissance du monde, le raisonnement mathématique, la traduction et le suivi des instructions, atteignant des performances de pointe parmi les modèles de taille similaire. De plus, nous avons accordé une priorité à la sécurité et à la fiabilité en abordant à la fois les considérations générales et spécifiques à la culture, et en intégrant des mécanismes pour réduire les hallucinations. Ce travail souligne l'importance d'une IA inclusive, montrant que les capacités avancées des LLMs peuvent bénéficier aux communautés linguistiques et culturelles sous-représentées.
English
Large Language Models (LLMs) have shown remarkable abilities across various tasks, yet their development has predominantly centered on high-resource languages like English and Chinese, leaving low-resource languages underserved. To address this disparity, we present SeaLLMs 3, the latest iteration of the SeaLLMs model family, tailored for Southeast Asian languages. This region, characterized by its rich linguistic diversity, has lacked adequate language technology support. SeaLLMs 3 aims to bridge this gap by covering a comprehensive range of languages spoken in this region, including English, Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao, Tamil, and Javanese. Leveraging efficient language enhancement techniques and a specially constructed instruction tuning dataset, SeaLLMs 3 significantly reduces training costs while maintaining high performance and versatility. Our model excels in tasks such as world knowledge, mathematical reasoning, translation, and instruction following, achieving state-of-the-art performance among similarly sized models. Additionally, we prioritized safety and reliability by addressing both general and culture-specific considerations and incorporated mechanisms to reduce hallucinations. This work underscores the importance of inclusive AI, showing that advanced LLM capabilities can benefit underserved linguistic and cultural communities.

Summary

AI-Generated Summary

PDF586November 28, 2024