ChatPaper.aiChatPaper

Otimização Evolutiva de Receitas de Fusão de Modelos

Evolutionary Optimization of Model Merging Recipes

March 19, 2024
Autores: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI

Resumo

Apresentamos uma aplicação inovadora de algoritmos evolutivos para automatizar a criação de modelos base poderosos. Embora a fusão de modelos tenha surgido como uma abordagem promissora para o desenvolvimento de LLMs devido à sua relação custo-benefício, ela atualmente depende da intuição humana e do conhecimento de domínio, limitando seu potencial. Aqui, propomos uma abordagem evolutiva que supera essa limitação ao descobrir automaticamente combinações eficazes de diversos modelos de código aberto, aproveitando sua inteligência coletiva sem a necessidade de dados adicionais extensivos ou recursos computacionais. Nossa abordagem opera tanto no espaço de parâmetros quanto no espaço de fluxo de dados, permitindo otimizações que vão além dos pesos dos modelos individuais. Essa abordagem até facilita a fusão entre domínios, gerando modelos como um LLM japonês com capacidades de raciocínio matemático. Surpreendentemente, nosso LLM japonês de matemática alcançou desempenho de ponta em uma variedade de benchmarks estabelecidos para LLMs japoneses, superando até mesmo modelos com significativamente mais parâmetros, apesar de não ter sido explicitamente treinado para tais tarefas. Além disso, um VLM japonês culturalmente consciente gerado por nossa abordagem demonstra sua eficácia na descrição de conteúdos específicos da cultura japonesa, superando VLMs japoneses anteriores. Este trabalho não apenas contribui com novos modelos de ponta de volta para a comunidade de código aberto, mas também introduz um novo paradigma para a composição automatizada de modelos, abrindo caminho para explorar abordagens alternativas e eficientes para o desenvolvimento de modelos base.
English
We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.
PDF584February 7, 2026