모델 병합 레시피의 진화적 최적화
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
저자: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
초록
우리는 강력한 파운데이션 모델의 자동 생성에 진화 알고리즘을 적용한 새로운 접근법을 소개한다. 모델 병합은 비용 효율성으로 인해 대형 언어 모델(LLM) 개발에 유망한 방법으로 부상했지만, 현재는 인간의 직관과 도메인 지식에 의존하고 있어 그 잠재력이 제한적이다. 본 연구에서는 이러한 한계를 극복하기 위해 다양한 오픈소스 모델의 효과적인 조합을 자동으로 발견하고, 추가적인 대규모 학습 데이터나 컴퓨팅 자원 없이도 이들의 집단 지능을 활용하는 진화적 접근법을 제안한다. 우리의 접근법은 파라미터 공간과 데이터 흐름 공간 모두에서 작동하여 개별 모델의 가중치 이상의 최적화를 가능하게 한다. 이 접근법은 심지어 도메인 간 병합도 가능하게 하여, 수학 추론 능력을 갖춘 일본어 LLM과 같은 모델을 생성할 수 있다. 놀랍게도, 우리의 일본어 수학 LLM은 다양한 일본어 LLM 벤치마크에서 최첨단 성능을 달성했으며, 해당 작업에 명시적으로 훈련되지 않았음에도 불구하고 훨씬 더 많은 파라미터를 가진 모델들을 능가했다. 또한, 우리의 접근법을 통해 생성된 문화 인식 일본어 시각 언어 모델(VLM)은 일본 문화 특화 콘텐츠를 설명하는 데 있어 이전의 일본어 VLM들을 능가하며 그 효과를 입증했다. 이 연구는 오픈소스 커뮤니티에 새로운 최첨단 모델을 기여할 뿐만 아니라, 자동화된 모델 구성에 대한 새로운 패러다임을 제시함으로써 파운데이션 모델 개발을 위한 대체적이고 효율적인 접근법을 탐구할 수 있는 길을 열어준다.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.Summary
AI-Generated Summary