Эволюционная оптимизация рецептов слияния моделей
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
Авторы: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
Аннотация
Мы представляем новое применение эволюционных алгоритмов для автоматизации создания мощных базовых моделей. В то время как объединение моделей стало перспективным подходом для разработки LLM из-за его экономической эффективности, в настоящее время он зависит от человеческой интуиции и предметных знаний, что ограничивает его потенциал. Здесь мы предлагаем эволюционный подход, который преодолевает это ограничение, автоматически находя эффективные комбинации разнообразных моделей с открытым исходным кодом, используя их коллективный интеллект без необходимости обширных дополнительных данных для обучения или вычислений. Наш подход работает как в пространстве параметров, так и в пространстве потока данных, позволяя оптимизировать не только веса отдельных моделей. Этот подход даже облегчает объединение моделей между различными областями, создавая модели, такие как японский LLM с математическими способностями. Удивительно, наш японский математический LLM достиг ведущих показателей на различных установленных японских бенчмарках LLM, даже превзойдя модели с значительно большим количеством параметров, несмотря на то, что он не был явно обучен для таких задач. Более того, культурно осознанный японский VLM, созданный с помощью нашего подхода, демонстрирует свою эффективность в описании контента, специфичного для японской культуры, превосходя предыдущие японские VLM. Эта работа не только вносит новые передовые модели в сообщество с открытым исходным кодом, но также представляет новую парадигму для автоматизированного составления моделей, открывая путь к исследованию альтернативных эффективных подходов к разработке базовых моделей.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.Summary
AI-Generated Summary