DivMerge: Um método de fusão de modelos baseado em divergência para multitarefas

Resumo

O aprendizado multitarefa (MTL) é frequentemente alcançado pela fusão de conjuntos de dados antes do ajuste fino, mas a crescente disponibilidade de modelos ajustados levou a novas abordagens, como a fusão de modelos via aritmética de tarefas. Um grande desafio nesse cenário é a interferência entre tarefas, que piora à medida que o número de tarefas aumenta. Propomos um método que combina modelos treinados em diferentes tarefas em um único modelo, mantendo um desempenho forte em todas as tarefas. Nossa abordagem utiliza a divergência de Jensen-Shannon para guiar o processo de fusão sem a necessidade de dados rotulados adicionais e equilibra automaticamente a importância das tarefas. Diferente dos métodos existentes, nossa abordagem permanece robusta à medida que o número de tarefas cresce e consistentemente supera trabalhos anteriores.

English

Multi-task learning (MTL) is often achieved by merging datasets before fine-tuning, but the growing availability of fine-tuned models has led to new approaches such as model merging via task arithmetic. A major challenge in this setting is task interference, which worsens as the number of tasks increases. We propose a method that merges models trained on different tasks into a single model, maintaining strong performance across all tasks. Our approach leverages Jensen-Shannon divergence to guide the merging process without requiring additional labelled data, and automatically balances task importance. Unlike existing methods, our approach remains robust as the number of tasks grows and consistently outperforms prior work.

DivMerge: Um método de fusão de modelos baseado em divergência para multitarefas

DivMerge: A divergence-based model merging method for multi-tasking

Resumo

Support