Uma Receita Aberta: Adaptando Modelos de Linguagem Específicos para um Modelo de Raciocínio em Um Dia através da Fusão de Modelos
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging
February 13, 2025
Autores: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
cs.AI
Resumo
Este artigo investiga metodologias de seleção de dados e fusão de modelos com o objetivo de incorporar capacidades avançadas de raciocínio, como as do DeepSeek R1, em grandes modelos de linguagem específicos de idiomas (LLMs), com foco especial no LLM tailandês. Nosso objetivo é aprimorar as capacidades de raciocínio dos LLMs específicos de idiomas, mantendo suas habilidades no idioma-alvo. O DeepSeek R1 se destaca em raciocínio, mas beneficia principalmente idiomas de alto recurso, como inglês e chinês. No entanto, idiomas de baixo recurso continuam subatendidos devido à predominância de dados de treinamento e otimizações de modelo centrados em inglês, o que limita o desempenho nesses idiomas. Essa limitação resulta em trocas de código pouco confiáveis e eficácia reduzida em tarefas em idiomas de baixo recurso. Enquanto isso, iniciativas locais e regionais de LLM tentaram preencher essa lacuna desenvolvendo LLMs específicos de idiomas que se concentram em melhorar a fidelidade linguística local. Demonstramos que, apenas com conjuntos de dados disponíveis publicamente e um orçamento computacional de $120, é possível aprimorar as capacidades de raciocínio dos LLMs específicos de idiomas para igualar o nível do DeepSeek R1, sem comprometer seu desempenho em tarefas no idioma-alvo.
English
This paper investigates data selection and model merging methodologies aimed
at incorporating advanced reasoning capabilities such as those of DeepSeek R1
into language-specific large language models (LLMs), with a particular focus on
the Thai LLM. Our goal is to enhance the reasoning capabilities of
language-specific LLMs while maintaining their target language abilities.
DeepSeek R1 excels in reasoning but primarily benefits high-resource languages
such as English and Chinese. However, low-resource languages remain underserved
due to the dominance of English-centric training data and model optimizations,
which limit performance in these languages. This limitation results in
unreliable code-switching and diminished effectiveness on tasks in low-resource
languages. Meanwhile, local and regional LLM initiatives have attempted to
bridge this gap by developing language-specific LLMs that focus on improving
local linguistic fidelity. We demonstrate that, with only publicly available
datasets and a computational budget of $120, it is possible to enhance the
reasoning capabilities of language-specific LLMs to match the level of DeepSeek
R1, without compromising their performance on target language tasks.Summary
AI-Generated Summary