DyePack: Nachweisliche Erkennung von Testdatenkontamination in LLMs mithilfe von Backdoors

Zusammenfassung

Offene Benchmarks sind entscheidend für die Bewertung und Weiterentwicklung großer Sprachmodelle, da sie Reproduzierbarkeit und Transparenz bieten. Ihre Zugänglichkeit macht sie jedoch zu wahrscheinlichen Zielen von Testdatenkontamination. In dieser Arbeit stellen wir DyePack vor, ein Framework, das Backdoor-Angriffe nutzt, um Modelle zu identifizieren, die Benchmark-Testdaten während des Trainings verwendet haben, ohne Zugriff auf den Verlust, die Logits oder interne Details des Modells zu benötigen. Ähnlich wie Banken Farbpäckchen mit ihrem Geld mischen, um Räuber zu markieren, mischt DyePack Backdoor-Beispiele mit den Testdaten, um Modelle zu kennzeichnen, die darauf trainiert wurden. Wir schlagen ein prinzipielles Design vor, das mehrere Backdoors mit stochastischen Zielen integriert und eine exakte Berechnung der falsch-positiven Rate (FPR) ermöglicht, wenn jedes Modell gekennzeichnet wird. Dies verhindert nachweislich falsche Anschuldigungen und liefert gleichzeitig starke Beweise für jeden erkannten Fall von Kontamination. Wir evaluieren DyePack an fünf Modellen über drei Datensätze hinweg, die sowohl Multiple-Choice- als auch offene Generierungsaufgaben abdecken. Bei Multiple-Choice-Fragen erkennt es erfolgreich alle kontaminierten Modelle mit garantierten FPRs von nur 0,000073 % auf MMLU-Pro und 0,000017 % auf Big-Bench-Hard unter Verwendung von acht Backdoors. Bei offenen Generierungsaufgaben generalisiert es gut und identifiziert alle kontaminierten Modelle auf Alpaca mit einer garantierten falsch-positiven Rate von nur 0,127 % unter Verwendung von sechs Backdoors.

English

Open benchmarks are essential for evaluating and advancing large language models, offering reproducibility and transparency. However, their accessibility makes them likely targets of test set contamination. In this work, we introduce DyePack, a framework that leverages backdoor attacks to identify models that used benchmark test sets during training, without requiring access to the loss, logits, or any internal details of the model. Like how banks mix dye packs with their money to mark robbers, DyePack mixes backdoor samples with the test data to flag models that trained on it. We propose a principled design incorporating multiple backdoors with stochastic targets, enabling exact false positive rate (FPR) computation when flagging every model. This provably prevents false accusations while providing strong evidence for every detected case of contamination. We evaluate DyePack on five models across three datasets, covering both multiple-choice and open-ended generation tasks. For multiple-choice questions, it successfully detects all contaminated models with guaranteed FPRs as low as 0.000073% on MMLU-Pro and 0.000017% on Big-Bench-Hard using eight backdoors. For open-ended generation tasks, it generalizes well and identifies all contaminated models on Alpaca with a guaranteed false positive rate of just 0.127% using six backdoors.