ZJUKLAB, SemEval-2025 Task 4: 모델 병합을 통한 언러닝
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
March 27, 2025
저자: Haoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
cs.AI
초록
본 논문은 SemEval-2025 Task 4: 대규모 언어 모델에서 민감한 콘텐츠 제거를 위한 ZJUKLAB 팀의 제출물을 소개합니다. 이 작업은 대규모 언어 모델에서 민감한 지식을 선택적으로 삭제하여 과도한 삭제와 미흡한 삭제 문제를 모두 피하는 것을 목표로 합니다. 우리는 모델 병합(특히 TIES-Merging)을 활용하여 두 개의 특화된 모델을 더 균형 잡힌 제거된 모델로 결합하는 제거 시스템을 제안합니다. 우리의 시스템은 경쟁력 있는 결과를 달성하여 26개 팀 중 2위를 차지했으며, Task Aggregate 점수 0.944와 전체 Aggregate 점수 0.487을 기록했습니다. 이 논문에서는 또한 지역 실험을 수행하고 제거 과정의 성능 추이, 손실 동역학, 가중치 관점을 포함한 포괄적인 분석과 여러 보조 실험을 통해 우리 방법의 효과를 이해하고자 합니다. 더 나아가, 우리 방법과 평가 지표의 단점을 분석하며, MIA 점수와 ROUGE 기반 지표만으로는 성공적인 제거를 완전히 평가하기에 부족함을 강조합니다. 마지막으로, 향후 연구에서 더 포괄적인 평가 방법론과 제거 목표에 대한 재고의 필요성을 강조합니다. 코드는 https://github.com/zjunlp/unlearn/tree/main/semeval25에서 확인할 수 있습니다.
English
This paper presents the ZJUKLAB team's submission for SemEval-2025 Task 4:
Unlearning Sensitive Content from Large Language Models. This task aims to
selectively erase sensitive knowledge from large language models, avoiding both
over-forgetting and under-forgetting issues. We propose an unlearning system
that leverages Model Merging (specifically TIES-Merging), combining two
specialized models into a more balanced unlearned model. Our system achieves
competitive results, ranking second among 26 teams, with an online score of
0.944 for Task Aggregate and 0.487 for overall Aggregate. In this paper, we
also conduct local experiments and perform a comprehensive analysis of the
unlearning process, examining performance trajectories, loss dynamics, and
weight perspectives, along with several supplementary experiments, to
understand the effectiveness of our method. Furthermore, we analyze the
shortcomings of our method and evaluation metrics, emphasizing that MIA scores
and ROUGE-based metrics alone are insufficient to fully evaluate successful
unlearning. Finally, we emphasize the need for more comprehensive evaluation
methodologies and rethinking of unlearning objectives in future research. Code
is available at https://github.com/zjunlp/unlearn/tree/main/semeval25.Summary
AI-Generated Summary