Mergenetic: een eenvoudige evolutionaire modelbibliotheek voor samenvoeging
Mergenetic: a Simple Evolutionary Model Merging Library
May 16, 2025
Auteurs: Adrian Robert Minut, Tommaso Mencattini, Andrea Santilli, Donato Crisostomi, Emanuele Rodolà
cs.AI
Samenvatting
Model merging maakt het mogelijk om de capaciteiten van bestaande modellen te combineren in een nieuw model - achteraf, zonder aanvullende training. Dit heeft het steeds populairder gemaakt dankzij de lage kosten en de beschikbaarheid van bibliotheken die merging ondersteunen op consumenten-GPU's. Recent onderzoek toont aan dat het combineren van merging met evolutionaire algoritmen de prestaties kan verbeteren, maar er is momenteel geen framework dat flexibel experimenteren met dergelijke strategieën in taalmodellen ondersteunt. Wij introduceren Mergenetic, een open-source bibliotheek voor evolutionaire model merging. Mergenetic maakt het eenvoudig om merging-methoden en evolutionaire algoritmen te combineren, terwijl het lichtgewicht fitness-schatters integreert om de evaluatiekosten te verlagen. We beschrijven het ontwerp en demonstreren dat Mergenetic competitieve resultaten oplevert over verschillende taken en talen met bescheiden hardware.
English
Model merging allows combining the capabilities of existing models into a new
one - post hoc, without additional training. This has made it increasingly
popular thanks to its low cost and the availability of libraries that support
merging on consumer GPUs. Recent work shows that pairing merging with
evolutionary algorithms can boost performance, but no framework currently
supports flexible experimentation with such strategies in language models. We
introduce Mergenetic, an open-source library for evolutionary model merging.
Mergenetic enables easy composition of merging methods and evolutionary
algorithms while incorporating lightweight fitness estimators to reduce
evaluation costs. We describe its design and demonstrate that Mergenetic
produces competitive results across tasks and languages using modest hardware.Summary
AI-Generated Summary