ChatPaper.aiChatPaper

오픈 모델에서 정렬 데이터 추출하기

Extracting alignment data in open models

October 21, 2025
저자: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI

초록

본 연구에서는 사후 학습된 모델로부터 상당량의 정렬 훈련 데이터를 추출할 수 있음을 보여주며, 이러한 데이터는 장문 맥락 추론, 안전성, 지시 따르기, 수학 능력 등 특정 능력을 개선하기 위해 모델을 조정하는 데 유용합니다. 기존의 대부분의 관련 연구들은 문자열 매칭을 통해 훈련 데이터 추출의 성공을 측정하는 데 초점을 맞추었지만, 우리는 임베딩 모델이 우리의 특정 목표에 더 적합하다고 주장합니다. 고품질 임베딩 모델을 통해 측정된 거리는 편집 거리와 같은 다른 메트릭이 포착하기 어려운 문자열 간의 의미적 유사성을 식별할 수 있습니다. 실제로 우리의 조사에서, 근사 문자열 매칭은 메트릭을 과소평가하는 사소한 아티팩트로 인해 추출 가능한 데이터의 양을 (보수적으로 10배까지) 심각하게 과소평가했을 것입니다. 흥미롭게도, 모델들은 SFT(Supervised Fine-Tuning)나 RL(Reinforcement Learning)과 같은 사후 학습 단계에서 사용된 훈련 데이터를 쉽게 재생산하는 것으로 나타났습니다. 우리는 이러한 데이터를 기본 모델을 훈련하는 데 사용하여 원래 성능의 상당 부분을 회복할 수 있음을 보여줍니다. 우리의 연구는 정렬 데이터 추출과 관련해 간과되었을 가능성이 있는 위험을 드러낸다고 믿습니다. 마지막으로, 우리의 연구는 증류(distillation) 관행의 하류 효과에 대한 흥미로운 논의를 열어줍니다: 모델들이 자신의 훈련 데이터셋의 일부를 재생산하는 것으로 보이기 때문에, 증류는 간접적으로 모델의 원래 데이터셋에 대해 훈련하는 것으로 생각할 수 있습니다.
English
In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of 10times) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
PDF52October 22, 2025