Optimización Evolutiva de Recetas de Fusión de Modelos
Evolutionary Optimization of Model Merging Recipes
March 19, 2024
Autores: Takuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha
cs.AI
Resumen
Presentamos una aplicación novedosa de algoritmos evolutivos para automatizar la creación de modelos base potentes. Si bien la fusión de modelos ha surgido como un enfoque prometedor para el desarrollo de LLM debido a su rentabilidad, actualmente depende de la intuición humana y el conocimiento del dominio, lo que limita su potencial. Aquí, proponemos un enfoque evolutivo que supera esta limitación al descubrir automáticamente combinaciones efectivas de diversos modelos de código abierto, aprovechando su inteligencia colectiva sin requerir datos adicionales extensos ni recursos computacionales. Nuestro enfoque opera tanto en el espacio de parámetros como en el espacio de flujo de datos, permitiendo una optimización que va más allá de los pesos de los modelos individuales. Este enfoque incluso facilita la fusión entre dominios, generando modelos como un LLM japonés con capacidades de razonamiento matemático. Sorprendentemente, nuestro LLM japonés de matemáticas alcanzó un rendimiento de vanguardia en una variedad de benchmarks establecidos para LLM japoneses, superando incluso a modelos con significativamente más parámetros, a pesar de no haber sido entrenado explícitamente para tales tareas. Además, un VLM japonés culturalmente consciente generado a través de nuestro enfoque demuestra su eficacia al describir contenido específico de la cultura japonesa, superando a los VLM japoneses anteriores. Este trabajo no solo contribuye con nuevos modelos de vanguardia a la comunidad de código abierto, sino que también introduce un nuevo paradigma para la composición automatizada de modelos, allanando el camino para explorar enfoques alternativos y eficientes en el desarrollo de modelos base.
English
We present a novel application of evolutionary algorithms to automate the
creation of powerful foundation models. While model merging has emerged as a
promising approach for LLM development due to its cost-effectiveness, it
currently relies on human intuition and domain knowledge, limiting its
potential. Here, we propose an evolutionary approach that overcomes this
limitation by automatically discovering effective combinations of diverse
open-source models, harnessing their collective intelligence without requiring
extensive additional training data or compute. Our approach operates in both
parameter space and data flow space, allowing for optimization beyond just the
weights of the individual models. This approach even facilitates cross-domain
merging, generating models like a Japanese LLM with Math reasoning
capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art
performance on a variety of established Japanese LLM benchmarks, even
surpassing models with significantly more parameters, despite not being
explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM
generated through our approach demonstrates its effectiveness in describing
Japanese culture-specific content, outperforming previous Japanese VLMs. This
work not only contributes new state-of-the-art models back to the open-source
community, but also introduces a new paradigm for automated model composition,
paving the way for exploring alternative, efficient approaches to foundation
model development.Summary
AI-Generated Summary