ChatPaper.aiChatPaper

Mergenetic : une bibliothèque simple de modèles évolutifs fusionnés

Mergenetic: a Simple Evolutionary Model Merging Library

May 16, 2025
Auteurs: Adrian Robert Minut, Tommaso Mencattini, Andrea Santilli, Donato Crisostomi, Emanuele Rodolà
cs.AI

Résumé

La fusion de modèles permet de combiner les capacités de modèles existants en un nouveau - a posteriori, sans entraînement supplémentaire. Cette approche a gagné en popularité grâce à son faible coût et à la disponibilité de bibliothèques prenant en charge la fusion sur des GPU grand public. Des travaux récents montrent que l'association de la fusion avec des algorithmes évolutionnaires peut améliorer les performances, mais aucun cadre ne supporte actuellement l'expérimentation flexible avec de telles stratégies pour les modèles de langage. Nous présentons Mergenetic, une bibliothèque open-source pour la fusion évolutive de modèles. Mergenetic permet une composition aisée des méthodes de fusion et des algorithmes évolutionnaires tout en intégrant des estimateurs légers de fitness pour réduire les coûts d'évaluation. Nous décrivons sa conception et démontrons que Mergenetic produit des résultats compétitifs sur diverses tâches et langues en utilisant un matériel modeste.
English
Model merging allows combining the capabilities of existing models into a new one - post hoc, without additional training. This has made it increasingly popular thanks to its low cost and the availability of libraries that support merging on consumer GPUs. Recent work shows that pairing merging with evolutionary algorithms can boost performance, but no framework currently supports flexible experimentation with such strategies in language models. We introduce Mergenetic, an open-source library for evolutionary model merging. Mergenetic enables easy composition of merging methods and evolutionary algorithms while incorporating lightweight fitness estimators to reduce evaluation costs. We describe its design and demonstrate that Mergenetic produces competitive results across tasks and languages using modest hardware.

Summary

AI-Generated Summary

PDF112May 19, 2025