La contamination des données peut franchir les barrières linguistiques.
Data Contamination Can Cross Language Barriers
June 19, 2024
Auteurs: Feng Yao, Yufan Zhuang, Zihao Sun, Sunan Xu, Animesh Kumar, Jingbo Shang
cs.AI
Résumé
L'opacité entourant le développement des grands modèles de langage (LLMs) suscite des préoccupations croissantes concernant la contamination potentielle des benchmarks publics dans les données de pré-entraînement. Les méthodes existantes de détection de contamination reposent généralement sur le chevauchement textuel entre les données d'entraînement et d'évaluation, ce qui peut être trop superficiel pour refléter des formes plus profondes de contamination. Dans cet article, nous présentons d'abord une forme de contamination multilingue qui gonfle les performances des LLMs tout en échappant aux méthodes de détection actuelles, en surajustant délibérément les LLMs sur les versions traduites des ensembles de test de référence. Ensuite, nous proposons des approches basées sur la généralisation pour révéler une telle contamination profondément dissimulée. Plus précisément, nous examinons l'évolution des performances du LLM après avoir modifié le benchmark original en remplaçant les choix de réponses incorrects par des réponses correctes provenant d'autres questions. Les modèles contaminés peinent à généraliser à de telles situations plus simples, où les choix incorrects peuvent ne même pas être faux, car tous les choix sont corrects dans leur mémorisation. Les résultats expérimentaux montrent que la contamination multilingue peut facilement tromper les méthodes de détection existantes, mais pas la nôtre. De plus, nous discutons de l'utilisation potentielle de la contamination multilingue pour interpréter les mécanismes de fonctionnement des LLMs et pour améliorer les capacités multilingues des LLMs après leur entraînement. Le code et le jeu de données utilisés peuvent être obtenus à l'adresse https://github.com/ShangDataLab/Deep-Contam.
English
The opacity in developing large language models (LLMs) is raising growing
concerns about the potential contamination of public benchmarks in the
pre-training data. Existing contamination detection methods are typically based
on the text overlap between training and evaluation data, which can be too
superficial to reflect deeper forms of contamination. In this paper, we first
present a cross-lingual form of contamination that inflates LLMs' performance
while evading current detection methods, deliberately injected by overfitting
LLMs on the translated versions of benchmark test sets. Then, we propose
generalization-based approaches to unmask such deeply concealed contamination.
Specifically, we examine the LLM's performance change after modifying the
original benchmark by replacing the false answer choices with correct ones from
other questions. Contaminated models can hardly generalize to such easier
situations, where the false choices can be not even wrong, as all
choices are correct in their memorization. Experimental results demonstrate
that cross-lingual contamination can easily fool existing detection methods,
but not ours. In addition, we discuss the potential utilization of
cross-lingual contamination in interpreting LLMs' working mechanisms and in
post-training LLMs for enhanced multilingual capabilities. The code and dataset
we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.