ZJUKLAB no SemEval-2025 Tarefa 4: Desaprendizado via Fusão de Modelos

Resumo

Este artigo apresenta a submissão da equipe ZJUKLAB para a Tarefa 4 do SemEval-2025: Desaprendizado de Conteúdo Sensível em Modelos de Linguagem de Grande Escala. Esta tarefa visa apagar seletivamente conhecimentos sensíveis de modelos de linguagem de grande escala, evitando tanto o esquecimento excessivo quanto o insuficiente. Propomos um sistema de desaprendizado que utiliza a Fusão de Modelos (especificamente TIES-Merging), combinando dois modelos especializados em um modelo desaprendido mais equilibrado. Nosso sistema alcança resultados competitivos, ficando em segundo lugar entre 26 equipes, com uma pontuação online de 0,944 para a Agregação de Tarefas e 0,487 para a Agregação Geral. Neste artigo, também realizamos experimentos locais e uma análise abrangente do processo de desaprendizado, examinando trajetórias de desempenho, dinâmicas de perda e perspectivas de pesos, juntamente com vários experimentos complementares, para entender a eficácia de nosso método. Além disso, analisamos as deficiências de nosso método e das métricas de avaliação, enfatizando que as pontuações MIA e as métricas baseadas em ROUGE são insuficientes para avaliar completamente o sucesso do desaprendizado. Por fim, destacamos a necessidade de metodologias de avaliação mais abrangentes e uma reavaliação dos objetivos do desaprendizado em pesquisas futuras. O código está disponível em https://github.com/zjunlp/unlearn/tree/main/semeval25.

English

This paper presents the ZJUKLAB team's submission for SemEval-2025 Task 4: Unlearning Sensitive Content from Large Language Models. This task aims to selectively erase sensitive knowledge from large language models, avoiding both over-forgetting and under-forgetting issues. We propose an unlearning system that leverages Model Merging (specifically TIES-Merging), combining two specialized models into a more balanced unlearned model. Our system achieves competitive results, ranking second among 26 teams, with an online score of 0.944 for Task Aggregate and 0.487 for overall Aggregate. In this paper, we also conduct local experiments and perform a comprehensive analysis of the unlearning process, examining performance trajectories, loss dynamics, and weight perspectives, along with several supplementary experiments, to understand the effectiveness of our method. Furthermore, we analyze the shortcomings of our method and evaluation metrics, emphasizing that MIA scores and ROUGE-based metrics alone are insufficient to fully evaluate successful unlearning. Finally, we emphasize the need for more comprehensive evaluation methodologies and rethinking of unlearning objectives in future research. Code is available at https://github.com/zjunlp/unlearn/tree/main/semeval25.

ZJUKLAB no SemEval-2025 Tarefa 4: Desaprendizado via Fusão de Modelos

ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Resumo

Support