Eine offene Anleitung: Anpassung von sprachspezifischen LLMs an ein Reasoning-Modell in einem Tag durch Modellfusion

papers.abstract

Dieses Papier untersucht Datenauswahl- und Modellzusammenführungsmethoden, die darauf abzielen, fortgeschrittene Argumentationsfähigkeiten wie die von DeepSeek R1 in sprachspezifische große Sprachmodelle (LLMs) zu integrieren, wobei der Schwerpunkt auf dem thailändischen LLM liegt. Unser Ziel ist es, die Argumentationsfähigkeiten sprachspezifischer LLMs zu verbessern, während ihre Fähigkeiten in der Zielsprache erhalten bleiben. DeepSeek R1 zeichnet sich durch Argumentation aus, profitiert jedoch hauptsächlich von Ressourcenreichen Sprachen wie Englisch und Chinesisch. Niedrig-ressourcen Sprachen werden jedoch aufgrund der Dominanz von englischzentrierten Trainingsdaten und Modelloptimierungen vernachlässigt, was die Leistung in diesen Sprachen einschränkt. Diese Einschränkung führt zu unzuverlässigem Code-Switching und verringert die Effektivität bei Aufgaben in niedrig-ressourcen Sprachen. In der Zwischenzeit haben lokale und regionale LLM-Initiativen versucht, diese Lücke zu schließen, indem sie sprachspezifische LLMs entwickeln, die sich auf die Verbesserung der lokalen sprachlichen Treue konzentrieren. Wir zeigen, dass es mit nur öffentlich verfügbaren Datensätzen und einem Rechenaufwand von 120 US-Dollar möglich ist, die Argumentationsfähigkeiten sprachspezifischer LLMs auf das Niveau von DeepSeek R1 zu verbessern, ohne ihre Leistung bei Aufgaben in der Zielsprache zu beeinträchtigen.

English

This paper investigates data selection and model merging methodologies aimed at incorporating advanced reasoning capabilities such as those of DeepSeek R1 into language-specific large language models (LLMs), with a particular focus on the Thai LLM. Our goal is to enhance the reasoning capabilities of language-specific LLMs while maintaining their target language abilities. DeepSeek R1 excels in reasoning but primarily benefits high-resource languages such as English and Chinese. However, low-resource languages remain underserved due to the dominance of English-centric training data and model optimizations, which limit performance in these languages. This limitation results in unreliable code-switching and diminished effectiveness on tasks in low-resource languages. Meanwhile, local and regional LLM initiatives have attempted to bridge this gap by developing language-specific LLMs that focus on improving local linguistic fidelity. We demonstrate that, with only publicly available datasets and a computational budget of $120, it is possible to enhance the reasoning capabilities of language-specific LLMs to match the level of DeepSeek R1, without compromising their performance on target language tasks.

Eine offene Anleitung: Anpassung von sprachspezifischen LLMs an ein Reasoning-Modell in einem Tag durch Modellfusion

An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

papers.abstract

Support