ChatPaper.aiChatPaper

La contaminazione dei dati può attraversare le barriere linguistiche

Data Contamination Can Cross Language Barriers

June 19, 2024
Autori: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI

Abstract

L'opacità nello sviluppo di grandi modelli linguistici (LLM) sta sollevando crescenti preoccupazioni riguardo alla potenziale contaminazione dei benchmark pubblici nei dati di pre-addestramento. I metodi esistenti per il rilevamento della contaminazione si basano tipicamente sulla sovrapposizione testuale tra i dati di addestramento e quelli di valutazione, che può essere troppo superficiale per riflettere forme più profonde di contaminazione. In questo articolo, presentiamo innanzitutto una forma di contaminazione cross-linguale che aumenta artificialmente le prestazioni degli LLM eludendo i metodi di rilevamento attuali, ottenuta sovradimensionando gli LLM sulle versioni tradotte dei set di test dei benchmark. Successivamente, proponiamo approcci basati sulla generalizzazione per smascherare tale contaminazione profondamente nascosta. Nello specifico, esaminiamo la variazione delle prestazioni dell'LLM dopo aver modificato il benchmark originale sostituendo le scelte di risposta errate con quelle corrette provenienti da altre domande. I modelli contaminati faticano a generalizzare in situazioni più semplici, in cui le scelte errate potrebbero non essere nemmeno sbagliate, poiché tutte le opzioni sono corrette nella loro memorizzazione. I risultati sperimentali dimostrano che la contaminazione cross-linguale può facilmente ingannare i metodi di rilevamento esistenti, ma non il nostro. Inoltre, discutiamo il potenziale utilizzo della contaminazione cross-linguale nell'interpretazione dei meccanismi di funzionamento degli LLM e nel post-addestramento degli LLM per migliorare le capacità multilingue. Il codice e il dataset utilizzati possono essere ottenuti da https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be not even wrong, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.
PDF83November 29, 2024