ChatPaper.aiChatPaper

SambaLingo: Das Lehren von großen Sprachmodellen neuer Sprachen

SambaLingo: Teaching Large Language Models New Languages

April 8, 2024
Autoren: Zoltan Csaki, Bo Li, Jonathan Li, Qiantong Xu, Pian Pawakapan, Leon Zhang, Yun Du, Hengyu Zhao, Changran Hu, Urmish Thakker
cs.AI

Zusammenfassung

Trotz der weit verbreiteten Verfügbarkeit von LLMs besteht nach wie vor eine erhebliche Kluft in ihren Fähigkeiten und der Verfügbarkeit in verschiedenen Sprachen. Ein Ansatz zur Bewältigung dieser Probleme besteht darin, ein vorhandenes vortrainiertes LLM zu nehmen und weiterhin auf neue Sprachen zu trainieren. Während frühere Arbeiten mit Sprachanpassung experimentiert haben, wurden viele Fragen zu bewährten Verfahren und Methoden noch nicht behandelt. In diesem Paper präsentieren wir eine umfassende Untersuchung zur Anpassung von LLMs an neue Sprachen. Unsere Studie umfasst die Schlüsselkomponenten dieses Prozesses, einschließlich der Erweiterung des Vokabulars, der direkten Präferenzoptimierung und des Problems der Datenknappheit für die menschliche Ausrichtung in Sprachen mit geringen Ressourcen. Wir skalieren diese Experimente auf 9 Sprachen und 2 Parametergrößen (7B und 70B). Wir vergleichen unsere Modelle mit Llama 2, Aya-101, XGLM, BLOOM und bestehenden Sprachexperten und übertreffen alle zuvor veröffentlichten Baselines. Darüber hinaus werden alle Evaluierungscodes und Checkpoints öffentlich zugänglich gemacht, um zukünftige Forschung zu erleichtern.
English
Despite the widespread availability of LLMs, there remains a substantial gap in their capabilities and availability across diverse languages. One approach to address these issues has been to take an existing pre-trained LLM and continue to train it on new languages. While prior works have experimented with language adaptation, many questions around best practices and methodology have not been covered. In this paper, we present a comprehensive investigation into the adaptation of LLMs to new languages. Our study covers the key components in this process, including vocabulary extension, direct preference optimization and the data scarcity problem for human alignment in low-resource languages. We scale these experiments across 9 languages and 2 parameter scales (7B and 70B). We compare our models against Llama 2, Aya-101, XGLM, BLOOM and existing language experts, outperforming all prior published baselines. Additionally, all evaluation code and checkpoints are made public to facilitate future research.

Summary

AI-Generated Summary

PDF130December 15, 2024