DyePack: Nachweisliche Erkennung von Testdatenkontamination in LLMs mithilfe von Backdoors
DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors
May 29, 2025
Autoren: Yize Cheng, Wenxiao Wang, Mazda Moayeri, Soheil Feizi
cs.AI
Zusammenfassung
Offene Benchmarks sind entscheidend für die Bewertung und Weiterentwicklung großer Sprachmodelle, da sie Reproduzierbarkeit und Transparenz bieten. Ihre Zugänglichkeit macht sie jedoch zu wahrscheinlichen Zielen von Testdatenkontamination. In dieser Arbeit stellen wir DyePack vor, ein Framework, das Backdoor-Angriffe nutzt, um Modelle zu identifizieren, die Benchmark-Testdaten während des Trainings verwendet haben, ohne Zugriff auf den Verlust, die Logits oder interne Details des Modells zu benötigen. Ähnlich wie Banken Farbpäckchen mit ihrem Geld mischen, um Räuber zu markieren, mischt DyePack Backdoor-Beispiele mit den Testdaten, um Modelle zu kennzeichnen, die darauf trainiert wurden. Wir schlagen ein prinzipielles Design vor, das mehrere Backdoors mit stochastischen Zielen integriert und eine exakte Berechnung der falsch-positiven Rate (FPR) ermöglicht, wenn jedes Modell gekennzeichnet wird. Dies verhindert nachweislich falsche Anschuldigungen und liefert gleichzeitig starke Beweise für jeden erkannten Fall von Kontamination. Wir evaluieren DyePack an fünf Modellen über drei Datensätze hinweg, die sowohl Multiple-Choice- als auch offene Generierungsaufgaben abdecken. Bei Multiple-Choice-Fragen erkennt es erfolgreich alle kontaminierten Modelle mit garantierten FPRs von nur 0,000073 % auf MMLU-Pro und 0,000017 % auf Big-Bench-Hard unter Verwendung von acht Backdoors. Bei offenen Generierungsaufgaben generalisiert es gut und identifiziert alle kontaminierten Modelle auf Alpaca mit einer garantierten falsch-positiven Rate von nur 0,127 % unter Verwendung von sechs Backdoors.
English
Open benchmarks are essential for evaluating and advancing large language
models, offering reproducibility and transparency. However, their accessibility
makes them likely targets of test set contamination. In this work, we introduce
DyePack, a framework that leverages backdoor attacks to identify models that
used benchmark test sets during training, without requiring access to the loss,
logits, or any internal details of the model. Like how banks mix dye packs with
their money to mark robbers, DyePack mixes backdoor samples with the test data
to flag models that trained on it. We propose a principled design incorporating
multiple backdoors with stochastic targets, enabling exact false positive rate
(FPR) computation when flagging every model. This provably prevents false
accusations while providing strong evidence for every detected case of
contamination. We evaluate DyePack on five models across three datasets,
covering both multiple-choice and open-ended generation tasks. For
multiple-choice questions, it successfully detects all contaminated models with
guaranteed FPRs as low as 0.000073% on MMLU-Pro and 0.000017% on Big-Bench-Hard
using eight backdoors. For open-ended generation tasks, it generalizes well and
identifies all contaminated models on Alpaca with a guaranteed false positive
rate of just 0.127% using six backdoors.