DivMerge: Um método de fusão de modelos baseado em divergência para multitarefas
DivMerge: A divergence-based model merging method for multi-tasking
September 2, 2025
Autores: Touayouch Brahim, Fosse Loïc, Damnati Géraldine, Lecorvé Gwénolé
cs.AI
Resumo
O aprendizado multitarefa (MTL) é frequentemente alcançado pela fusão de conjuntos de dados antes do ajuste fino, mas a crescente disponibilidade de modelos ajustados levou a novas abordagens, como a fusão de modelos via aritmética de tarefas. Um grande desafio nesse cenário é a interferência entre tarefas, que piora à medida que o número de tarefas aumenta. Propomos um método que combina modelos treinados em diferentes tarefas em um único modelo, mantendo um desempenho forte em todas as tarefas. Nossa abordagem utiliza a divergência de Jensen-Shannon para guiar o processo de fusão sem a necessidade de dados rotulados adicionais e equilibra automaticamente a importância das tarefas. Diferente dos métodos existentes, nossa abordagem permanece robusta à medida que o número de tarefas cresce e consistentemente supera trabalhos anteriores.
English
Multi-task learning (MTL) is often achieved by merging datasets before
fine-tuning, but the growing availability of fine-tuned models has led to new
approaches such as model merging via task arithmetic. A major challenge in this
setting is task interference, which worsens as the number of tasks increases.
We propose a method that merges models trained on different tasks into a single
model, maintaining strong performance across all tasks. Our approach leverages
Jensen-Shannon divergence to guide the merging process without requiring
additional labelled data, and automatically balances task importance. Unlike
existing methods, our approach remains robust as the number of tasks grows and
consistently outperforms prior work.