ZJUKLAB bij SemEval-2025 Taak 4: Ontleren via Model Samenvoeging
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
March 27, 2025
Auteurs: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Dit artikel presenteert de inzending van het ZJUKLAB-team voor SemEval-2025 Taak 4: Het afleren van gevoelige inhoud uit grote taalmodellen. Deze taak heeft als doel om selectief gevoelige kennis uit grote taalmodellen te verwijderen, waarbij zowel overmatig als onvoldoende afleren wordt vermeden. Wij stellen een aflersysteem voor dat gebruikmaakt van Model Merging (specifiek TIES-Merging), waarbij twee gespecialiseerde modellen worden gecombineerd tot een meer gebalanceerd afgeleerd model. Ons systeem behaalt competitieve resultaten, met een tweede plaats onder 26 teams, een online score van 0.944 voor Taak Aggregate en 0.487 voor het algehele Aggregate. In dit artikel voeren we ook lokale experimenten uit en doen we een uitgebreide analyse van het aflerproces, waarbij we prestatieverlopen, verliesdynamiek en gewichtsperspectieven onderzoeken, samen met verschillende aanvullende experimenten, om de effectiviteit van onze methode te begrijpen. Daarnaast analyseren we de tekortkomingen van onze methode en evaluatiemetrics, waarbij we benadrukken dat MIA-scores en ROUGE-gebaseerde metrics alleen niet voldoende zijn om succesvol afleren volledig te evalueren. Tot slot benadrukken we de noodzaak voor meer uitgebreide evaluatiemethodologieën en een herziening van aflerdoelstellingen in toekomstig onderzoek. De code is beschikbaar op https://github.com/zjunlp/unlearn/tree/main/semeval25.
English
This paper presents the ZJUKLAB team's submission for SemEval-2025 Task 4:
Unlearning Sensitive Content from Large Language Models. This task aims to
selectively erase sensitive knowledge from large language models, avoiding both
over-forgetting and under-forgetting issues. We propose an unlearning system
that leverages Model Merging (specifically TIES-Merging), combining two
specialized models into a more balanced unlearned model. Our system achieves
competitive results, ranking second among 26 teams, with an online score of
0.944 for Task Aggregate and 0.487 for overall Aggregate. In this paper, we
also conduct local experiments and perform a comprehensive analysis of the
unlearning process, examining performance trajectories, loss dynamics, and
weight perspectives, along with several supplementary experiments, to
understand the effectiveness of our method. Furthermore, we analyze the
shortcomings of our method and evaluation metrics, emphasizing that MIA scores
and ROUGE-based metrics alone are insufficient to fully evaluate successful
unlearning. Finally, we emphasize the need for more comprehensive evaluation
methodologies and rethinking of unlearning objectives in future research. Code
is available at https://github.com/zjunlp/unlearn/tree/main/semeval25.Summary
AI-Generated Summary