Datenkontamination kann Sprachbarrieren überwinden.
Data Contamination Can Cross Language Barriers
June 19, 2024
Autoren: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI
Zusammenfassung
Die Undurchsichtigkeit bei der Entwicklung großer Sprachmodelle (LLMs) ruft zunehmend Bedenken hervor hinsichtlich der potenziellen Verunreinigung öffentlicher Benchmarks in den Vortrainingsdaten. Bestehende Methoden zur Erkennung von Verunreinigungen basieren typischerweise auf der Textüberschneidung zwischen Trainings- und Evaluierungsdaten, was zu oberflächlich sein kann, um tiefere Formen von Verunreinigungen widerzuspiegeln. In diesem Artikel präsentieren wir zunächst eine Form der länderübergreifenden Verunreinigung, die die Leistung von LLMs aufbläht und dabei die aktuellen Erkennungsmethoden umgeht, die absichtlich durch Überanpassung von LLMs an die übersetzten Versionen von Benchmark-Testsets eingefügt wurden. Anschließend schlagen wir generalisierungsbasierte Ansätze vor, um solche tief verborgenen Verunreinigungen aufzudecken. Konkret untersuchen wir die Veränderung der Leistung des LLMs, nachdem das ursprüngliche Benchmark durch den Austausch der falschen Antwortmöglichkeiten durch korrekte aus anderen Fragen modifiziert wurde. Verunreinigte Modelle können sich kaum auf solche einfacheren Situationen generalisieren, in denen die falschen Optionen nicht einmal falsch sein können, da alle Optionen in ihrer Memorisierung korrekt sind. Experimentelle Ergebnisse zeigen, dass länderübergreifende Verunreinigungen bestehende Erkennungsmethoden leicht täuschen können, jedoch nicht unsere. Darüber hinaus diskutieren wir die potenzielle Nutzung von länderübergreifenden Verunreinigungen zur Interpretation der Arbeitsmechanismen von LLMs und zur Nachschulung von LLMs für verbesserte mehrsprachige Fähigkeiten. Der von uns verwendete Code und Datensatz können unter https://github.com/ShangDataLab/Deep-Contam abgerufen werden.
English
The opacity in developing large language models (LLMs) is raising growing
concerns about the potential contamination of public benchmarks in the
pre-training data. Existing contamination detection methods are typically based
on the text overlap between training and evaluation data, which can be too
superficial to reflect deeper forms of contamination. In this paper, we first
present a cross-lingual form of contamination that inflates LLMs' performance
while evading current detection methods, deliberately injected by overfitting
LLMs on the translated versions of benchmark test sets. Then, we propose
generalization-based approaches to unmask such deeply concealed contamination.
Specifically, we examine the LLM's performance change after modifying the
original benchmark by replacing the false answer choices with correct ones from
other questions. Contaminated models can hardly generalize to such easier
situations, where the false choices can be not even wrong, as all
choices are correct in their memorization. Experimental results demonstrate
that cross-lingual contamination can easily fool existing detection methods,
but not ours. In addition, we discuss the potential utilization of
cross-lingual contamination in interpreting LLMs' working mechanisms and in
post-training LLMs for enhanced multilingual capabilities. The code and dataset
we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.