ChatPaper.aiChatPaper

Extrahieren von Ausrichtungsdaten in offenen Modellen

Extracting alignment data in open models

October 21, 2025
papers.authors: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI

papers.abstract

In dieser Arbeit zeigen wir, dass es möglich ist, signifikante Mengen an Alignment-Trainingsdaten aus einem nachtrainierten Modell zu extrahieren – nützlich, um das Modell dahingehend zu steuern, bestimmte Fähigkeiten wie Langzeitkontext-Verständnis, Sicherheit, Befolgung von Anweisungen und mathematische Fähigkeiten zu verbessern. Während sich der Großteil der verwandten Arbeiten zur Memorisierung darauf konzentriert hat, den Erfolg der Extraktion von Trainingsdaten durch String-Matching zu messen, argumentieren wir, dass Embedding-Modelle besser für unsere spezifischen Ziele geeignet sind. Distanzen, die durch ein hochwertiges Embedding-Modell gemessen werden, können semantische Ähnlichkeiten zwischen Zeichenketten identifizieren, die ein anderes Metrik wie die Editierdistanz nur schwer erfassen kann. Tatsächlich hätte in unserer Untersuchung das approximative String-Matching die Menge der extrahierbaren Daten (nach einer konservativen Schätzung um das Zehnfache) stark unterschätzt, und zwar aufgrund trivialer Artefakte, die die Metrik verfälschen. Interessanterweise stellen wir fest, dass Modelle bereitwillig Trainingsdaten wiedergeben, die in Nachtrainingsphasen wie SFT oder RL verwendet wurden. Wir zeigen, dass diese Daten dann verwendet werden können, um ein Basismodell zu trainieren und dabei einen bedeutenden Teil der ursprünglichen Leistung wiederherzustellen. Wir glauben, dass unsere Arbeit ein möglicherweise übersehenes Risiko bei der Extraktion von Alignment-Daten aufdeckt. Schließlich eröffnet unsere Arbeit eine interessante Diskussion über die nachgelagerten Effekte von Distillationspraktiken: Da Modelle offenbar Aspekte ihres Trainingsdatensatzes wiedergeben, kann Distillation daher als indirektes Training auf dem ursprünglichen Datensatz des Modells betrachtet werden.
English
In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of 10times) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
PDF52October 22, 2025