SeaLLMs 3: Open Foundation en Chat Meertalige Grote Taalmodellen voor Zuidoost-Aziatische Talen
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages
July 29, 2024
Auteurs: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in diverse taken, maar hun ontwikkeling heeft zich voornamelijk gericht op talen met veel bronnen, zoals Engels en Chinees, waardoor talen met weinig bronnen ondervertegenwoordigd zijn. Om deze ongelijkheid aan te pakken, presenteren we SeaLLMs 3, de nieuwste iteratie van de SeaLLMs-modelreeks, speciaal ontworpen voor Zuidoost-Aziatische talen. Deze regio, gekenmerkt door zijn rijke taalkundige diversiteit, heeft onvoldoende ondersteuning op het gebied van taaltechnologie gehad. SeaLLMs 3 wil deze kloof overbruggen door een breed scala aan talen die in deze regio worden gesproken te omvatten, waaronder Engels, Chinees, Indonesisch, Vietnamees, Thai, Tagalog, Maleis, Birmees, Khmer, Laotiaans, Tamil en Javaans. Door gebruik te maken van efficiënte taalverbeteringstechnieken en een speciaal samengestelde instructieafstemmingsdataset, verlaagt SeaLLMs 3 de trainingskosten aanzienlijk terwijl het hoge prestaties en veelzijdigheid behoudt. Ons model blinkt uit in taken zoals wereldkennis, wiskundig redeneren, vertaling en het volgen van instructies, en behaalt state-of-the-art prestaties onder vergelijkbaar grote modellen. Daarnaast hebben we prioriteit gegeven aan veiligheid en betrouwbaarheid door zowel algemene als cultuurspecifieke overwegingen aan te pakken en mechanismen te integreren om hallucinaties te verminderen. Dit werk benadrukt het belang van inclusieve AI, door te laten zien dat geavanceerde LLM-capaciteiten ten goede kunnen komen aan ondervertegenwoordigde taalkundige en culturele gemeenschappen.
English
Large Language Models (LLMs) have shown remarkable abilities across various
tasks, yet their development has predominantly centered on high-resource
languages like English and Chinese, leaving low-resource languages underserved.
To address this disparity, we present SeaLLMs 3, the latest iteration of the
SeaLLMs model family, tailored for Southeast Asian languages. This region,
characterized by its rich linguistic diversity, has lacked adequate language
technology support. SeaLLMs 3 aims to bridge this gap by covering a
comprehensive range of languages spoken in this region, including English,
Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao,
Tamil, and Javanese. Leveraging efficient language enhancement techniques and a
specially constructed instruction tuning dataset, SeaLLMs 3 significantly
reduces training costs while maintaining high performance and versatility. Our
model excels in tasks such as world knowledge, mathematical reasoning,
translation, and instruction following, achieving state-of-the-art performance
among similarly sized models. Additionally, we prioritized safety and
reliability by addressing both general and culture-specific considerations and
incorporated mechanisms to reduce hallucinations. This work underscores the
importance of inclusive AI, showing that advanced LLM capabilities can benefit
underserved linguistic and cultural communities.