La contamination des données peut franchir les barrières linguistiques.

Résumé

L'opacité entourant le développement des grands modèles de langage (LLMs) suscite des préoccupations croissantes concernant la contamination potentielle des benchmarks publics dans les données de pré-entraînement. Les méthodes existantes de détection de contamination reposent généralement sur le chevauchement textuel entre les données d'entraînement et d'évaluation, ce qui peut être trop superficiel pour refléter des formes plus profondes de contamination. Dans cet article, nous présentons d'abord une forme de contamination multilingue qui gonfle les performances des LLMs tout en échappant aux méthodes de détection actuelles, en surajustant délibérément les LLMs sur les versions traduites des ensembles de test de référence. Ensuite, nous proposons des approches basées sur la généralisation pour révéler une telle contamination profondément dissimulée. Plus précisément, nous examinons l'évolution des performances du LLM après avoir modifié le benchmark original en remplaçant les choix de réponses incorrects par des réponses correctes provenant d'autres questions. Les modèles contaminés peinent à généraliser à de telles situations plus simples, où les choix incorrects peuvent ne même pas être faux, car tous les choix sont corrects dans leur mémorisation. Les résultats expérimentaux montrent que la contamination multilingue peut facilement tromper les méthodes de détection existantes, mais pas la nôtre. De plus, nous discutons de l'utilisation potentielle de la contamination multilingue pour interpréter les mécanismes de fonctionnement des LLMs et pour améliorer les capacités multilingues des LLMs après leur entraînement. Le code et le jeu de données utilisés peuvent être obtenus à l'adresse https://github.com/ShangDataLab/Deep-Contam.

English

The opacity in developing large language models (LLMs) is raising growing concerns about the potential contamination of public benchmarks in the pre-training data. Existing contamination detection methods are typically based on the text overlap between training and evaluation data, which can be too superficial to reflect deeper forms of contamination. In this paper, we first present a cross-lingual form of contamination that inflates LLMs' performance while evading current detection methods, deliberately injected by overfitting LLMs on the translated versions of benchmark test sets. Then, we propose generalization-based approaches to unmask such deeply concealed contamination. Specifically, we examine the LLM's performance change after modifying the original benchmark by replacing the false answer choices with correct ones from other questions. Contaminated models can hardly generalize to such easier situations, where the false choices can be not even wrong, as all choices are correct in their memorization. Experimental results demonstrate that cross-lingual contamination can easily fool existing detection methods, but not ours. In addition, we discuss the potential utilization of cross-lingual contamination in interpreting LLMs' working mechanisms and in post-training LLMs for enhanced multilingual capabilities. The code and dataset we use can be obtained from https://github.com/ShangDataLab/Deep-Contam.

La contamination des données peut franchir les barrières linguistiques.

Data Contamination Can Cross Language Barriers

Résumé

Support