Het extraheren van uitlijningsgegevens in open modellen
Extracting alignment data in open models
October 21, 2025
Auteurs: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI
Samenvatting
In dit werk tonen we aan dat het mogelijk is om aanzienlijke hoeveelheden
alignment-trainingsdata te extraheren uit een nageoefend model -- nuttig om het
model te sturen om bepaalde capaciteiten te verbeteren, zoals redeneren over
lange contexten, veiligheid, instructieopvolging en wiskunde. Terwijl het
merendeel van gerelateerd onderzoek over memorisatie zich heeft gericht op het
meten van het succes van trainingsdata-extractie via string matching, stellen
wij dat embedding-modellen beter geschikt zijn voor onze specifieke doelen.
Afstanden gemeten via een hoogwaardig embedding-model kunnen semantische
overeenkomsten tussen strings identificeren die een andere metriek, zoals
bewerkingsafstand, moeilijk kan vastleggen. In feite zou in ons onderzoek
benaderende string matching (met een conservatieve schatting van 10 keer) de
hoeveelheid data die kan worden geëxtraheerd ernstig hebben onderschat vanwege
triviale artefacten die de metriek verlagen. Interessant genoeg ontdekken we dat
modellen trainingsdata die is gebruikt in natreiningsfasen zoals SFT of RL
makkelijk reproduceren. We laten zien dat deze data vervolgens kan worden
gebruikt om een basismodel te trainen, waarbij een betekenisvol deel van de
oorspronkelijke prestaties wordt hersteld. Wij geloven dat ons werk een mogelijk
over het hoofd gezien risico blootlegt met betrekking tot het extraheren van
alignment-data. Tot slot opent ons werk een interessante discussie over de
downstream-effecten van distillatiepraktijken: aangezien modellen aspecten van
hun trainingsset lijken te reproduceren, kan distillatie daarom worden gezien
als een indirecte training op de oorspronkelijke dataset van het model.
English
In this work, we show that it is possible to extract significant amounts of
alignment training data from a post-trained model -- useful to steer the model
to improve certain capabilities such as long-context reasoning, safety,
instruction following, and maths. While the majority of related work on
memorisation has focused on measuring success of training data extraction
through string matching, we argue that embedding models are better suited for
our specific goals. Distances measured through a high quality embedding model
can identify semantic similarities between strings that a different metric such
as edit distance will struggle to capture. In fact, in our investigation,
approximate string matching would have severely undercounted (by a conservative
estimate of 10times) the amount of data that can be extracted due to trivial
artifacts that deflate the metric. Interestingly, we find that models readily
regurgitate training data that was used in post-training phases such as SFT or
RL. We show that this data can be then used to train a base model, recovering a
meaningful amount of the original performance. We believe our work exposes a
possibly overlooked risk towards extracting alignment data. Finally, our work
opens up an interesting discussion on the downstream effects of distillation
practices: since models seem to be regurgitating aspects of their training set,
distillation can therefore be thought of as indirectly training on the model's
original dataset.