ChatPaper.aiChatPaper

SeaLLMs 3: Offene Grundlage und Chat Multilinguale Große Sprachmodelle für südostasiatische Sprachen

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

July 29, 2024
Autoren: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Aufgaben gezeigt, jedoch lag ihr Schwerpunkt bei der Entwicklung hauptsächlich auf hochresourcen Sprachen wie Englisch und Chinesisch, wodurch niedrig resourcen Sprachen vernachlässigt wurden. Um diese Diskrepanz zu beheben, präsentieren wir SeaLLMs 3, die neueste Iteration der SeaLLMs Modellfamilie, speziell für südostasiatische Sprachen entwickelt. Diese Region, gekennzeichnet durch ihre reiche sprachliche Vielfalt, hat bisher nicht ausreichend Unterstützung durch Sprachtechnologie erhalten. SeaLLMs 3 zielt darauf ab, diese Lücke zu schließen, indem es eine umfassende Palette von Sprachen abdeckt, die in dieser Region gesprochen werden, darunter Englisch, Chinesisch, Indonesisch, Vietnamesisch, Thailändisch, Tagalog, Malaiisch, Burmesisch, Khmer, Laotisch, Tamil und Javanisch. Durch den Einsatz effizienter Sprachverbesserungstechniken und eines speziell konstruierten Anleitungstuning-Datensatzes reduziert SeaLLMs 3 signifikant die Trainingskosten, während es eine hohe Leistungsfähigkeit und Vielseitigkeit beibehält. Unser Modell zeichnet sich in Aufgaben wie Weltwissen, mathematisches Denken, Übersetzung und Anweisungsfolgen aus und erzielt eine Spitzenleistung unter ähnlich dimensionierten Modellen. Darüber hinaus haben wir Sicherheit und Zuverlässigkeit priorisiert, indem wir sowohl allgemeine als auch kulturspezifische Überlegungen berücksichtigt und Mechanismen zur Reduzierung von Halluzinationen integriert haben. Diese Arbeit unterstreicht die Bedeutung einer inklusiven KI und zeigt, dass fortgeschrittene LLM-Fähigkeiten benachteiligten sprachlichen und kulturellen Gemeinschaften zugutekommen können.
English
Large Language Models (LLMs) have shown remarkable abilities across various tasks, yet their development has predominantly centered on high-resource languages like English and Chinese, leaving low-resource languages underserved. To address this disparity, we present SeaLLMs 3, the latest iteration of the SeaLLMs model family, tailored for Southeast Asian languages. This region, characterized by its rich linguistic diversity, has lacked adequate language technology support. SeaLLMs 3 aims to bridge this gap by covering a comprehensive range of languages spoken in this region, including English, Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao, Tamil, and Javanese. Leveraging efficient language enhancement techniques and a specially constructed instruction tuning dataset, SeaLLMs 3 significantly reduces training costs while maintaining high performance and versatility. Our model excels in tasks such as world knowledge, mathematical reasoning, translation, and instruction following, achieving state-of-the-art performance among similarly sized models. Additionally, we prioritized safety and reliability by addressing both general and culture-specific considerations and incorporated mechanisms to reduce hallucinations. This work underscores the importance of inclusive AI, showing that advanced LLM capabilities can benefit underserved linguistic and cultural communities.

Summary

AI-Generated Summary

PDF586November 28, 2024