Una Ricetta Aperta: Adattare Modelli di Lingua Specifici a un Modello di Ragionamento in un Giorno tramite Fusione di Modelli
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging
February 13, 2025
Autori: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
cs.AI
Abstract
Questo articolo investiga metodologie di selezione dei dati e di fusione dei modelli mirate a incorporare capacità avanzate di ragionamento come quelle di DeepSeek R1 nei grandi modelli linguistici (LLM) specifici per lingua, con un focus particolare sul LLM tailandese. Il nostro obiettivo è potenziare le capacità di ragionamento dei LLM specifici per lingua mantenendo le loro abilità nella lingua di destinazione. DeepSeek R1 eccelle nel ragionamento ma beneficia principalmente delle lingue ad alto livello di risorse come l'inglese e il cinese. Tuttavia, le lingue a bassa risorsa rimangono poco servite a causa della predominanza dei dati di addestramento e delle ottimizzazioni dei modelli incentrati sull'inglese, che limitano le prestazioni in queste lingue. Questa limitazione porta a uno scambio di codice non affidabile e a un'efficacia ridotta nelle attività nelle lingue a bassa risorsa. Nel frattempo, iniziative locali e regionali di LLM hanno cercato di colmare questa lacuna sviluppando LLM specifici per lingua che si concentrano sul miglioramento della fedeltà linguistica locale. Dimostriamo che, utilizzando solo set di dati disponibili pubblicamente e un budget computazionale di $120, è possibile potenziare le capacità di ragionamento dei LLM specifici per lingua per eguagliare il livello di DeepSeek R1, senza compromettere le loro prestazioni nelle attività nella lingua di destinazione.
English
This paper investigates data selection and model merging methodologies aimed
at incorporating advanced reasoning capabilities such as those of DeepSeek R1
into language-specific large language models (LLMs), with a particular focus on
the Thai LLM. Our goal is to enhance the reasoning capabilities of
language-specific LLMs while maintaining their target language abilities.
DeepSeek R1 excels in reasoning but primarily benefits high-resource languages
such as English and Chinese. However, low-resource languages remain underserved
due to the dominance of English-centric training data and model optimizations,
which limit performance in these languages. This limitation results in
unreliable code-switching and diminished effectiveness on tasks in low-resource
languages. Meanwhile, local and regional LLM initiatives have attempted to
bridge this gap by developing language-specific LLMs that focus on improving
local linguistic fidelity. We demonstrate that, with only publicly available
datasets and a computational budget of $120, it is possible to enhance the
reasoning capabilities of language-specific LLMs to match the level of DeepSeek
R1, without compromising their performance on target language tasks.Summary
AI-Generated Summary