SeaLLMs 3: Открытый фреймворк и многоязычные крупномасштабные языковые модели для чатов на языках Юго-Восточной Азии
SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages
July 29, 2024
Авторы: Wenxuan Zhang, Hou Pong Chan, Yiran Zhao, Mahani Aljunied, Jianyu Wang, Chaoqun Liu, Yue Deng, Zhiqiang Hu, Weiwen Xu, Yew Ken Chia, Xin Li, Lidong Bing
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали выдающиеся способности в различных задачах, однако их развитие в основном сосредоточено на языках с высокими ресурсами, таких как английский и китайский, что приводит к недостаточной поддержке языков с низкими ресурсами. Для решения этого неравенства мы представляем SeaLLMs 3, последнюю версию семейства моделей SeaLLMs, разработанную для языков Юго-Восточной Азии. Этот регион, отличающийся богатым языковым разнообразием, испытывает недостаток поддержки языковых технологий. SeaLLMs 3 нацелена на устранение этой проблемы, охватывая широкий спектр языков, используемых в этом регионе, включая английский, китайский, индонезийский, вьетнамский, тайский, тагальский, малайский, бирманский, кхмерский, лаосский, тамильский и яванский. Используя эффективные методы улучшения языка и специально созданный набор данных для настройки инструкций, SeaLLMs 3 значительно снижает затраты на обучение, сохраняя при этом высокую производительность и универсальность. Наша модель выделяется в таких задачах, как мировые знания, математическое мышление, перевод и следование инструкциям, достигая передовой производительности среди моделей схожего размера. Кроме того, мы уделили приоритет безопасности и надежности, учитывая как общие, так и культурно-специфические аспекты, и внедрили механизмы для снижения галлюцинаций. Эта работа подчеркивает важность инклюзивного искусственного интеллекта, демонстрируя, что продвинутые возможности LLM могут быть полезны для недооцененных языковых и культурных сообществ.
English
Large Language Models (LLMs) have shown remarkable abilities across various
tasks, yet their development has predominantly centered on high-resource
languages like English and Chinese, leaving low-resource languages underserved.
To address this disparity, we present SeaLLMs 3, the latest iteration of the
SeaLLMs model family, tailored for Southeast Asian languages. This region,
characterized by its rich linguistic diversity, has lacked adequate language
technology support. SeaLLMs 3 aims to bridge this gap by covering a
comprehensive range of languages spoken in this region, including English,
Chinese, Indonesian, Vietnamese, Thai, Tagalog, Malay, Burmese, Khmer, Lao,
Tamil, and Javanese. Leveraging efficient language enhancement techniques and a
specially constructed instruction tuning dataset, SeaLLMs 3 significantly
reduces training costs while maintaining high performance and versatility. Our
model excels in tasks such as world knowledge, mathematical reasoning,
translation, and instruction following, achieving state-of-the-art performance
among similarly sized models. Additionally, we prioritized safety and
reliability by addressing both general and culture-specific considerations and
incorporated mechanisms to reduce hallucinations. This work underscores the
importance of inclusive AI, showing that advanced LLM capabilities can benefit
underserved linguistic and cultural communities.Summary
AI-Generated Summary