Datacontaminatie kan taalbarrières overstijgen

Samenvatting

De ondoorzichtigheid bij het ontwikkelen van grote taalmmodellen (LLM's) wekt toenemende zorgen over de mogelijke besmetting van openbare benchmarks in de voorafgaande trainingsdata. Bestaande methoden voor het detecteren van besmetting zijn doorgaans gebaseerd op tekstoverlap tussen trainings- en evaluatiedata, wat te oppervlakkig kan zijn om diepere vormen van besmetting te weerspiegelen. In dit artikel presenteren we eerst een cross-linguale vorm van besmetting die de prestaties van LLM's opblaast terwijl ze huidige detectiemethoden ontwijkt, doelbewust geïnjecteerd door LLM's te overfitten op vertaalde versies van benchmark-test sets. Vervolgens stellen we generalisatie-gebaseerde benaderingen voor om dergelijke diep verborgen besmetting te ontmaskeren. Specifiek onderzoeken we de prestatieverandering van het LLM na het aanpassen van de originele benchmark door de foute antwoordkeuzes te vervangen door correcte uit andere vragen. Besmette modellen kunnen zich moeilijk aanpassen aan dergelijke eenvoudigere situaties, waar de foute keuzes zelfs niet fout kunnen zijn, aangezien alle keuzes correct zijn in hun geheugen. Experimentele resultaten tonen aan dat cross-linguale besmetting bestaande detectiemethoden gemakkelijk kan misleiden, maar niet de onze. Daarnaast bespreken we het potentiële gebruik van cross-linguale besmetting bij het interpreteren van de werkingsmechanismen van LLM's en bij het post-trainen van LLM's voor verbeterde meertalige capaciteiten. De code en dataset die we gebruiken zijn beschikbaar op https://github.com/ShangDataLab/Deep-Contam.

English

The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be not even wrong, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.

Datacontaminatie kan taalbarrières overstijgen

Data Contamination Can Cross Language Barriers

Samenvatting

Support