DivMerge : Une méthode de fusion de modèles basée sur la divergence pour le multitâche
DivMerge: A divergence-based model merging method for multi-tasking
September 2, 2025
papers.authors: Touayouch Brahim, Fosse Loïc, Damnati Géraldine, Lecorvé Gwénolé
cs.AI
papers.abstract
L'apprentissage multitâche (MTL) est souvent réalisé en fusionnant des ensembles de données avant l'affinage, mais la disponibilité croissante de modèles affinés a conduit à de nouvelles approches telles que la fusion de modèles via l'arithmétique des tâches. Un défi majeur dans ce contexte est l'interférence entre les tâches, qui s'aggrave à mesure que le nombre de tâches augmente. Nous proposons une méthode qui fusionne des modèles entraînés sur différentes tâches en un seul modèle, tout en maintenant des performances solides sur toutes les tâches. Notre approche exploite la divergence de Jensen-Shannon pour guider le processus de fusion sans nécessiter de données étiquetées supplémentaires, et équilibre automatiquement l'importance des tâches. Contrairement aux méthodes existantes, notre approche reste robuste à mesure que le nombre de tâches augmente et surpasse systématiquement les travaux antérieurs.
English
Multi-task learning (MTL) is often achieved by merging datasets before
fine-tuning, but the growing availability of fine-tuned models has led to new
approaches such as model merging via task arithmetic. A major challenge in this
setting is task interference, which worsens as the number of tasks increases.
We propose a method that merges models trained on different tasks into a single
model, maintaining strong performance across all tasks. Our approach leverages
Jensen-Shannon divergence to guide the merging process without requiring
additional labelled data, and automatically balances task importance. Unlike
existing methods, our approach remains robust as the number of tasks grows and
consistently outperforms prior work.