Extraindo dados de alinhamento em modelos abertos
Extracting alignment data in open models
October 21, 2025
Autores: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI
Resumo
Neste trabalho, demonstramos que é possível extrair quantidades significativas de dados de treinamento de alinhamento de um modelo pós-treinado -- úteis para direcionar o modelo a melhorar certas capacidades, como raciocínio de contexto longo, segurança, seguimento de instruções e matemática. Enquanto a maioria dos trabalhos relacionados sobre memorização tem se concentrado em medir o sucesso da extração de dados de treinamento por meio de correspondência de strings, argumentamos que modelos de embeddings são mais adequados para nossos objetivos específicos. Distâncias medidas por meio de um modelo de embedding de alta qualidade podem identificar similaridades semânticas entre strings que uma métrica diferente, como a distância de edição, teria dificuldade em capturar. De fato, em nossa investigação, a correspondência aproximada de strings teria subestimado severamente (por uma estimativa conservadora de 10 vezes) a quantidade de dados que podem ser extraídos devido a artefatos triviais que reduzem a métrica. Curiosamente, descobrimos que os modelos regurgitam prontamente dados de treinamento que foram usados em fases de pós-treinamento, como SFT ou RL. Mostramos que esses dados podem então ser usados para treinar um modelo base, recuperando uma quantidade significativa do desempenho original. Acreditamos que nosso trabalho expõe um risco potencialmente negligenciado em relação à extração de dados de alinhamento. Por fim, nosso trabalho abre uma discussão interessante sobre os efeitos subsequentes das práticas de destilação: como os modelos parecem regurgitar aspectos de seu conjunto de treinamento, a destilação pode, portanto, ser pensada como um treinamento indireto no conjunto de dados original do modelo.
English
In this work, we show that it is possible to extract significant amounts of
alignment training data from a post-trained model -- useful to steer the model
to improve certain capabilities such as long-context reasoning, safety,
instruction following, and maths. While the majority of related work on
memorisation has focused on measuring success of training data extraction
through string matching, we argue that embedding models are better suited for
our specific goals. Distances measured through a high quality embedding model
can identify semantic similarities between strings that a different metric such
as edit distance will struggle to capture. In fact, in our investigation,
approximate string matching would have severely undercounted (by a conservative
estimate of 10times) the amount of data that can be extracted due to trivial
artifacts that deflate the metric. Interestingly, we find that models readily
regurgitate training data that was used in post-training phases such as SFT or
RL. We show that this data can be then used to train a base model, recovering a
meaningful amount of the original performance. We believe our work exposes a
possibly overlooked risk towards extracting alignment data. Finally, our work
opens up an interesting discussion on the downstream effects of distillation
practices: since models seem to be regurgitating aspects of their training set,
distillation can therefore be thought of as indirectly training on the model's
original dataset.