SeaLLMs 3: Fundación Abierta y Modelos de Lenguaje de Gran Tamaño Multilingües de Chat para Idiomas del Sudeste Asiático
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages
July 29, 2024
Autores: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado habilidades notables en diversas tareas, sin embargo, su desarrollo se ha centrado predominantemente en idiomas de alto recurso como el inglés y el chino, dejando desatendidos a los idiomas de bajo recurso. Para abordar esta disparidad, presentamos SeaLLMs 3, la última iteración de la familia de modelos SeaLLMs, diseñada para los idiomas del sudeste asiático. Esta región, caracterizada por su rica diversidad lingüística, ha carecido de un adecuado soporte tecnológico del lenguaje. SeaLLMs 3 tiene como objetivo cerrar esta brecha al abarcar una amplia gama de idiomas hablados en esta región, incluyendo inglés, chino, indonesio, vietnamita, tailandés, tagalo, malayo, birmano, jemer, laosiano, tamil y javanés. Aprovechando técnicas eficientes de mejora del lenguaje y un conjunto de datos de ajuste de instrucciones especialmente construido, SeaLLMs 3 reduce significativamente los costos de entrenamiento manteniendo un alto rendimiento y versatilidad. Nuestro modelo destaca en tareas como conocimiento del mundo, razonamiento matemático, traducción y seguimiento de instrucciones, logrando un rendimiento de vanguardia entre modelos de tamaño similar. Además, priorizamos la seguridad y la fiabilidad al abordar consideraciones generales y específicas de la cultura e incorporamos mecanismos para reducir las alucinaciones. Este trabajo subraya la importancia de la IA inclusiva, demostrando que las capacidades avanzadas de los LLM pueden beneficiar a comunidades lingüísticas y culturales desatendidas.
English
Large Language Models (LLMs) have shown remarkable abilities across various
tasks, yet their development has predominantly centered on high-resource
languages like English and Chinese, leaving low-resource languages underserved.
To address this disparity, we present SeaLLMs 3, the latest iteration of the
SeaLLMs model family, tailored for Southeast Asian languages. This region,
characterized by its rich linguistic diversity, has lacked adequate language
technology support. SeaLLMs 3 aims to bridge this gap by covering a
comprehensive range of languages spoken in this region, including English,
Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao,
Tamil, and Javanese. Leveraging efficient language enhancement techniques and a
specially constructed instruction tuning dataset, SeaLLMs 3 significantly
reduces training costs while maintaining high performance and versatility. Our
model excels in tasks such as world knowledge, mathematical reasoning,
translation, and instruction following, achieving state-of-the-art performance
among similarly sized models. Additionally, we prioritized safety and
reliability by addressing both general and culture-specific considerations and
incorporated mechanisms to reduce hallucinations. This work underscores the
importance of inclusive AI, showing that advanced LLM capabilities can benefit
underserved linguistic and cultural communities.Summary
AI-Generated Summary