Открытый рецепт: Адаптация языко-специфических LLM к модели рассуждений за один день с помощью слияния моделей
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging
February 13, 2025
Авторы: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai
cs.AI
Аннотация
Данный документ исследует методики выбора данных и объединения моделей с целью интеграции продвинутых возможностей рассуждения, таких как у DeepSeek R1, в языко-специфические большие языковые модели (LLM), с особым вниманием к тайской LLM. Наша цель - улучшить возможности рассуждения языко-специфических LLM, сохраняя их языковые возможности. DeepSeek R1 выделяется в рассуждениях, но в основном приносит пользу языкам с высокими ресурсами, таким как английский и китайский. Однако языки с низкими ресурсами остаются недооцененными из-за доминирования англо-центричных данных обучения и оптимизации моделей, что снижает производительность в этих языках. Это ограничение приводит к ненадежному переключению кода и уменьшению эффективности на задачах в языках с низкими ресурсами. Тем временем местные и региональные инициативы по LLM пытались заполнить эту пропасть, разрабатывая языко-специфические LLM, сосредотачиваясь на улучшении местной лингвистической достоверности. Мы демонстрируем, что с использованием только общедоступных наборов данных и бюджета в размере 120 долларов США возможно улучшить возможности рассуждения языко-специфических LLM до уровня DeepSeek R1, не ухудшая их производительность на задачах целевого языка.
English
This paper investigates data selection and model merging methodologies aimed
at incorporating advanced reasoning capabilities such as those of DeepSeek R1
into language-specific large language models (LLMs), with a particular focus on
the Thai LLM. Our goal is to enhance the reasoning capabilities of
language-specific LLMs while maintaining their target language abilities.
DeepSeek R1 excels in reasoning but primarily benefits high-resource languages
such as English and Chinese. However, low-resource languages remain underserved
due to the dominance of English-centric training data and model optimizations,
which limit performance in these languages. This limitation results in
unreliable code-switching and diminished effectiveness on tasks in low-resource
languages. Meanwhile, local and regional LLM initiatives have attempted to
bridge this gap by developing language-specific LLMs that focus on improving
local linguistic fidelity. We demonstrate that, with only publicly available
datasets and a computational budget of $120, it is possible to enhance the
reasoning capabilities of language-specific LLMs to match the level of DeepSeek
R1, without compromising their performance on target language tasks.Summary
AI-Generated Summary