SeaLLMs 3: Fundação Aberta e Modelos de Linguagem de Grande Escala Multilíngues de Bate-Papo para Línguas do Sudeste Asiático
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages
July 29, 2024
Autores: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado habilidades notáveis em várias tarefas, no entanto, seu desenvolvimento tem se concentrado predominantemente em idiomas de alto recurso como inglês e chinês, deixando idiomas de baixo recurso desatendidos. Para abordar essa disparidade, apresentamos o SeaLLMs 3, a última iteração da família de modelos SeaLLMs, adaptada para idiomas do Sudeste Asiático. Essa região, caracterizada por sua rica diversidade linguística, tem carecido de suporte tecnológico adequado para idiomas. O SeaLLMs 3 tem como objetivo preencher essa lacuna abrangendo uma ampla gama de idiomas falados na região, incluindo inglês, chinês, indonésio, vietnamita, tailandês, tagalo, malaio, birmanês, khmer, laosiano, tâmil e javanês. Aproveitando técnicas eficientes de aprimoramento de idiomas e um conjunto de dados de ajuste de instruções especialmente construído, o SeaLLMs 3 reduz significativamente os custos de treinamento, mantendo alto desempenho e versatilidade. Nosso modelo se destaca em tarefas como conhecimento mundial, raciocínio matemático, tradução e seguimento de instruções, alcançando desempenho de ponta entre modelos de tamanho semelhante. Além disso, priorizamos a segurança e confiabilidade ao abordar considerações gerais e específicas da cultura e incorporamos mecanismos para reduzir alucinações. Este trabalho destaca a importância de uma IA inclusiva, mostrando que as capacidades avançadas dos LLMs podem beneficiar comunidades linguísticas e culturais desatendidas.
English
Large Language Models (LLMs) have shown remarkable abilities across various
tasks, yet their development has predominantly centered on high-resource
languages like English and Chinese, leaving low-resource languages underserved.
To address this disparity, we present SeaLLMs 3, the latest iteration of the
SeaLLMs model family, tailored for Southeast Asian languages. This region,
characterized by its rich linguistic diversity, has lacked adequate language
technology support. SeaLLMs 3 aims to bridge this gap by covering a
comprehensive range of languages spoken in this region, including English,
Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao,
Tamil, and Javanese. Leveraging efficient language enhancement techniques and a
specially constructed instruction tuning dataset, SeaLLMs 3 significantly
reduces training costs while maintaining high performance and versatility. Our
model excels in tasks such as world knowledge, mathematical reasoning,
translation, and instruction following, achieving state-of-the-art performance
among similarly sized models. Additionally, we prioritized safety and
reliability by addressing both general and culture-specific considerations and
incorporated mechanisms to reduce hallucinations. This work underscores the
importance of inclusive AI, showing that advanced LLM capabilities can benefit
underserved linguistic and cultural communities.Summary
AI-Generated Summary