ChatPaper.aiChatPaper

Извлечение данных выравнивания в открытых моделях

Extracting alignment data in open models

October 21, 2025
Авторы: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI

Аннотация

В данной работе мы показываем, что возможно извлечь значительные объемы данных для обучения выравнивания из пост-обученной модели — эти данные полезны для управления моделью с целью улучшения определенных способностей, таких как рассуждение в длинных контекстах, безопасность, следование инструкциям и математические навыки. В то время как большинство связанных исследований по запоминанию данных сосредоточено на измерении успеха извлечения обучающих данных через сопоставление строк, мы утверждаем, что модели эмбеддингов лучше подходят для наших конкретных целей. Расстояния, измеренные с помощью качественной модели эмбеддингов, могут выявить семантические сходства между строками, которые другие метрики, такие как расстояние редактирования, не смогут уловить. Фактически, в нашем исследовании приближенное сопоставление строк значительно недооценило бы (по консервативной оценке, в 10 раз) объем данных, которые можно извлечь, из-за тривиальных артефактов, снижающих эту метрику. Интересно, что мы обнаружили, что модели легко воспроизводят обучающие данные, использованные на этапах пост-обучения, таких как SFT или RL. Мы показываем, что эти данные можно затем использовать для обучения базовой модели, восстанавливая значительную часть исходной производительности. Мы считаем, что наша работа выявляет потенциально упущенный риск, связанный с извлечением данных для выравнивания. Наконец, наша работа открывает интересную дискуссию о последствиях практик дистилляции: поскольку модели, по-видимому, воспроизводят аспекты своего обучающего набора, дистилляцию можно рассматривать как косвенное обучение на исходном наборе данных модели.
English
In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of 10times) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
PDF52October 22, 2025