Eine offene Anleitung: Anpassung von sprachspezifischen LLMs an ein Reasoning-Modell in einem Tag durch Modellfusion
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging
February 13, 2025
Autoren: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
cs.AI
Zusammenfassung
Dieses Papier untersucht Datenauswahl- und Modellzusammenführungsmethoden, die darauf abzielen, fortgeschrittene Argumentationsfähigkeiten wie die von DeepSeek R1 in sprachspezifische große Sprachmodelle (LLMs) zu integrieren, wobei der Schwerpunkt auf dem thailändischen LLM liegt. Unser Ziel ist es, die Argumentationsfähigkeiten sprachspezifischer LLMs zu verbessern, während ihre Fähigkeiten in der Zielsprache erhalten bleiben. DeepSeek R1 zeichnet sich durch Argumentation aus, profitiert jedoch hauptsächlich von Ressourcenreichen Sprachen wie Englisch und Chinesisch. Niedrig-ressourcen Sprachen werden jedoch aufgrund der Dominanz von englischzentrierten Trainingsdaten und Modelloptimierungen vernachlässigt, was die Leistung in diesen Sprachen einschränkt. Diese Einschränkung führt zu unzuverlässigem Code-Switching und verringert die Effektivität bei Aufgaben in niedrig-ressourcen Sprachen. In der Zwischenzeit haben lokale und regionale LLM-Initiativen versucht, diese Lücke zu schließen, indem sie sprachspezifische LLMs entwickeln, die sich auf die Verbesserung der lokalen sprachlichen Treue konzentrieren. Wir zeigen, dass es mit nur öffentlich verfügbaren Datensätzen und einem Rechenaufwand von 120 US-Dollar möglich ist, die Argumentationsfähigkeiten sprachspezifischer LLMs auf das Niveau von DeepSeek R1 zu verbessern, ohne ihre Leistung bei Aufgaben in der Zielsprache zu beeinträchtigen.
English
This paper investigates data selection and model merging methodologies aimed
at incorporating advanced reasoning capabilities such as those of DeepSeek R1
into language-specific large language models (LLMs), with a particular focus on
the Thai LLM. Our goal is to enhance the reasoning capabilities of
language-specific LLMs while maintaining their target language abilities.
DeepSeek R1 excels in reasoning but primarily benefits high-resource languages
such as English and Chinese. However, low-resource languages remain underserved
due to the dominance of English-centric training data and model optimizations,
which limit performance in these languages. This limitation results in
unreliable code-switching and diminished effectiveness on tasks in low-resource
languages. Meanwhile, local and regional LLM initiatives have attempted to
bridge this gap by developing language-specific LLMs that focus on improving
local linguistic fidelity. We demonstrate that, with only publicly available
datasets and a computational budget of $120, it is possible to enhance the
reasoning capabilities of language-specific LLMs to match the level of DeepSeek
R1, without compromising their performance on target language tasks.Summary
AI-Generated Summary