Una Receta Abierta: Adaptando Modelos de Lenguaje Específicos a un Modelo de Razonamiento en un Día a través de la Fusión de Modelos
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging
February 13, 2025
Autores: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
cs.AI
Resumen
Este documento investiga metodologías de selección de datos y fusión de modelos destinadas a incorporar capacidades avanzadas de razonamiento, como las de DeepSeek R1, en modelos de lenguaje específicos de un idioma (LLMs), con un enfoque particular en el LLM tailandés. Nuestro objetivo es mejorar las capacidades de razonamiento de los LLMs específicos de un idioma manteniendo sus habilidades en el idioma objetivo. DeepSeek R1 destaca en razonamiento, pero beneficia principalmente a idiomas con muchos recursos como el inglés y el chino. Sin embargo, los idiomas con pocos recursos siguen siendo desatendidos debido a la predominancia de los datos de entrenamiento y optimizaciones de modelos centrados en el inglés, lo que limita el rendimiento en estos idiomas. Esta limitación resulta en un cambio de código poco confiable y una efectividad disminuida en tareas en idiomas con pocos recursos. Mientras tanto, iniciativas locales y regionales de LLM han intentado cerrar esta brecha desarrollando LLMs específicos de un idioma que se centran en mejorar la fidelidad lingüística local. Demostramos que, con solo conjuntos de datos disponibles públicamente y un presupuesto computacional de $120, es posible mejorar las capacidades de razonamiento de los LLMs específicos de un idioma para igualar el nivel de DeepSeek R1, sin comprometer su rendimiento en tareas en el idioma objetivo.
English
This paper investigates data selection and model merging methodologies aimed
at incorporating advanced reasoning capabilities such as those of DeepSeek R1
into language-specific large language models (LLMs), with a particular focus on
the Thai LLM. Our goal is to enhance the reasoning capabilities of
language-specific LLMs while maintaining their target language abilities.
DeepSeek R1 excels in reasoning but primarily benefits high-resource languages
such as English and Chinese. However, low-resource languages remain underserved
due to the dominance of English-centric training data and model optimizations,
which limit performance in these languages. This limitation results in
unreliable code-switching and diminished effectiveness on tasks in low-resource
languages. Meanwhile, local and regional LLM initiatives have attempted to
bridge this gap by developing language-specific LLMs that focus on improving
local linguistic fidelity. We demonstrate that, with only publicly available
datasets and a computational budget of $120, it is possible to enhance the
reasoning capabilities of language-specific LLMs to match the level of DeepSeek
R1, without compromising their performance on target language tasks.Summary
AI-Generated Summary