ChatPaper.aiChatPaper

Mergenetic: een eenvoudige evolutionaire modelbibliotheek voor samenvoeging

Mergenetic: a Simple Evolutionary Model Merging Library

May 16, 2025
Auteurs: Adrian Robert Minut, Tommaso Mencattini, Andrea Santilli, Donato Crisostomi, Emanuele Rodolà
cs.AI

Samenvatting

Model merging maakt het mogelijk om de capaciteiten van bestaande modellen te combineren in een nieuw model - achteraf, zonder aanvullende training. Dit heeft het steeds populairder gemaakt dankzij de lage kosten en de beschikbaarheid van bibliotheken die merging ondersteunen op consumenten-GPU's. Recent onderzoek toont aan dat het combineren van merging met evolutionaire algoritmen de prestaties kan verbeteren, maar er is momenteel geen framework dat flexibel experimenteren met dergelijke strategieën in taalmodellen ondersteunt. Wij introduceren Mergenetic, een open-source bibliotheek voor evolutionaire model merging. Mergenetic maakt het eenvoudig om merging-methoden en evolutionaire algoritmen te combineren, terwijl het lichtgewicht fitness-schatters integreert om de evaluatiekosten te verlagen. We beschrijven het ontwerp en demonstreren dat Mergenetic competitieve resultaten oplevert over verschillende taken en talen met bescheiden hardware.
English
Model merging allows combining the capabilities of existing models into a new one - post hoc, without additional training. This has made it increasingly popular thanks to its low cost and the availability of libraries that support merging on consumer GPUs. Recent work shows that pairing merging with evolutionary algorithms can boost performance, but no framework currently supports flexible experimentation with such strategies in language models. We introduce Mergenetic, an open-source library for evolutionary model merging. Mergenetic enables easy composition of merging methods and evolutionary algorithms while incorporating lightweight fitness estimators to reduce evaluation costs. We describe its design and demonstrate that Mergenetic produces competitive results across tasks and languages using modest hardware.

Summary

AI-Generated Summary

PDF122May 19, 2025