Datacontaminatie kan taalbarrières overstijgen
Data Contamination Can Cross Language Barriers
June 19, 2024
Auteurs: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI
Samenvatting
De ondoorzichtigheid bij het ontwikkelen van grote taalmmodellen (LLM's) wekt toenemende zorgen over de mogelijke besmetting van openbare benchmarks in de voorafgaande trainingsdata. Bestaande methoden voor het detecteren van besmetting zijn doorgaans gebaseerd op tekstoverlap tussen trainings- en evaluatiedata, wat te oppervlakkig kan zijn om diepere vormen van besmetting te weerspiegelen. In dit artikel presenteren we eerst een cross-linguale vorm van besmetting die de prestaties van LLM's opblaast terwijl ze huidige detectiemethoden ontwijkt, doelbewust geïnjecteerd door LLM's te overfitten op vertaalde versies van benchmark-test sets. Vervolgens stellen we generalisatie-gebaseerde benaderingen voor om dergelijke diep verborgen besmetting te ontmaskeren. Specifiek onderzoeken we de prestatieverandering van het LLM na het aanpassen van de originele benchmark door de foute antwoordkeuzes te vervangen door correcte uit andere vragen. Besmette modellen kunnen zich moeilijk aanpassen aan dergelijke eenvoudigere situaties, waar de foute keuzes zelfs niet fout kunnen zijn, aangezien alle keuzes correct zijn in hun geheugen. Experimentele resultaten tonen aan dat cross-linguale besmetting bestaande detectiemethoden gemakkelijk kan misleiden, maar niet de onze. Daarnaast bespreken we het potentiële gebruik van cross-linguale besmetting bij het interpreteren van de werkingsmechanismen van LLM's en bij het post-trainen van LLM's voor verbeterde meertalige capaciteiten. De code en dataset die we gebruiken zijn beschikbaar op https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing
concerns about the potential contamination of public benchmarks in the
pre-training data. Existing contamination detection methods are typically based
on the text overlap between training and evaluation data, which can be too
superficial to reflect deeper forms of contamination. In this paper, we first
present a cross-lingual form of contamination that inflates LLMs' performance
while evading current detection methods, deliberately injected by overfitting
LLMs on the translated versions of benchmark test sets. Then, we propose
generalization-based approaches to unmask such deeply concealed contamination.
Specifically, we examine the LLM's performance change after modifying the
original benchmark by replacing the false answer choices with correct ones from
other questions. Contaminated models can hardly generalize to such easier
situations, where the false choices can be not even wrong, as all
choices are correct in their memorization. Experimental results demonstrate
that cross-lingual contamination can easily fool existing detection methods,
but not ours. In addition, we discuss the potential utilization of
cross-lingual contamination in interpreting LLMs' working mechanisms and in
post-training LLMs for enhanced multilingual capabilities. The code and dataset
we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.