DyePack : Détection garantie de la contamination des ensembles de test dans les LLM grâce à l'utilisation de portes dérobées

Résumé

Les benchmarks ouverts sont essentiels pour évaluer et faire progresser les grands modèles de langage, offrant reproductibilité et transparence. Cependant, leur accessibilité en fait des cibles probables de contamination des ensembles de test. Dans ce travail, nous présentons DyePack, un cadre qui exploite les attaques par porte dérobée pour identifier les modèles ayant utilisé les ensembles de test des benchmarks pendant leur entraînement, sans nécessiter l'accès à la fonction de perte, aux logits ou à tout détail interne du modèle. À l'instar des banques qui mélangent des paquets de colorant avec leur argent pour marquer les voleurs, DyePack mélange des échantillons de porte dérobée avec les données de test pour signaler les modèles qui s'y sont entraînés. Nous proposons une conception rigoureuse intégrant plusieurs portes dérobées avec des cibles stochastiques, permettant le calcul exact du taux de faux positifs (FPR) lors du signalement de chaque modèle. Cela empêche de manière prouvée les fausses accusations tout en fournissant des preuves solides pour chaque cas détecté de contamination. Nous évaluons DyePack sur cinq modèles à travers trois ensembles de données, couvrant à la fois des tâches à choix multiples et de génération ouverte. Pour les questions à choix multiples, il détecte avec succès tous les modèles contaminés avec des FPR garantis aussi bas que 0,000073 % sur MMLU-Pro et 0,000017 % sur Big-Bench-Hard en utilisant huit portes dérobées. Pour les tâches de génération ouverte, il généralise bien et identifie tous les modèles contaminés sur Alpaca avec un taux de faux positifs garanti de seulement 0,127 % en utilisant six portes dérobées.

English

Open benchmarks are essential for evaluating and advancing large language models, offering reproducibility and transparency. However, their accessibility makes them likely targets of test set contamination. In this work, we introduce DyePack, a framework that leverages backdoor attacks to identify models that used benchmark test sets during training, without requiring access to the loss, logits, or any internal details of the model. Like how banks mix dye packs with their money to mark robbers, DyePack mixes backdoor samples with the test data to flag models that trained on it. We propose a principled design incorporating multiple backdoors with stochastic targets, enabling exact false positive rate (FPR) computation when flagging every model. This provably prevents false accusations while providing strong evidence for every detected case of contamination. We evaluate DyePack on five models across three datasets, covering both multiple-choice and open-ended generation tasks. For multiple-choice questions, it successfully detects all contaminated models with guaranteed FPRs as low as 0.000073% on MMLU-Pro and 0.000017% on Big-Bench-Hard using eight backdoors. For open-ended generation tasks, it generalizes well and identifies all contaminated models on Alpaca with a guaranteed false positive rate of just 0.127% using six backdoors.