SeaLLMs 3: Modelli Linguistici Multilingue di Base e Chat Aperti per le Lingue del Sudest Asiatico
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages
July 29, 2024
Autori: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie in vari compiti, tuttavia il loro sviluppo si è concentrato prevalentemente su lingue ad alto livello di risorse come l'inglese e il cinese, lasciando le lingue a basso livello di risorse sottoservite. Per affrontare questa disparità, presentiamo SeaLLMs 3, l'ultima iterazione della famiglia di modelli SeaLLMs, progettata specificamente per le lingue del Sud-est asiatico. Questa regione, caratterizzata da una ricca diversità linguistica, ha sofferto di un supporto tecnologico linguistico inadeguato. SeaLLMs 3 mira a colmare questa lacuna coprendo un'ampia gamma di lingue parlate in questa area, tra cui inglese, cinese, indonesiano, vietnamita, thailandese, tagalog, malese, birmano, khmer, lao, tamil e giavanese. Sfruttando tecniche efficienti di miglioramento linguistico e un dataset appositamente costruito per il tuning delle istruzioni, SeaLLMs 3 riduce significativamente i costi di addestramento mantenendo un'elevata performance e versatilità. Il nostro modello eccelle in compiti come la conoscenza mondiale, il ragionamento matematico, la traduzione e il seguire istruzioni, raggiungendo prestazioni all'avanguardia tra modelli di dimensioni simili. Inoltre, abbiamo dato priorità alla sicurezza e all'affidabilità affrontando considerazioni sia generali che specifiche della cultura e incorporando meccanismi per ridurre le allucinazioni. Questo lavoro sottolinea l'importanza di un'IA inclusiva, dimostrando che le capacità avanzate degli LLM possono beneficiare comunità linguistiche e culturali sottoservite.
English
Large Language Models (LLMs) have shown remarkable abilities across various
tasks, yet their development has predominantly centered on high-resource
languages like English and Chinese, leaving low-resource languages underserved.
To address this disparity, we present SeaLLMs 3, the latest iteration of the
SeaLLMs model family, tailored for Southeast Asian languages. This region,
characterized by its rich linguistic diversity, has lacked adequate language
technology support. SeaLLMs 3 aims to bridge this gap by covering a
comprehensive range of languages spoken in this region, including English,
Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao,
Tamil, and Javanese. Leveraging efficient language enhancement techniques and a
specially constructed instruction tuning dataset, SeaLLMs 3 significantly
reduces training costs while maintaining high performance and versatility. Our
model excels in tasks such as world knowledge, mathematical reasoning,
translation, and instruction following, achieving state-of-the-art performance
among similarly sized models. Additionally, we prioritized safety and
reliability by addressing both general and culture-specific considerations and
incorporated mechanisms to reduce hallucinations. This work underscores the
importance of inclusive AI, showing that advanced LLM capabilities can benefit
underserved linguistic and cultural communities.