オープンモデルにおけるアライメントデータの抽出
Extracting alignment data in open models
October 21, 2025
著者: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI
要旨
本研究では、ポストトレーニングされたモデルから、モデルの特定の能力(長文脈推論、安全性、指示追従、数学的能力など)を向上させるために有用な、相当量のアライメントトレーニングデータを抽出可能であることを示します。これまでの記憶化に関する研究の大半は、文字列マッチングによるトレーニングデータ抽出の成功度を測定することに焦点を当ててきましたが、我々は、埋め込みモデルが我々の特定の目的により適していると主張します。高品質な埋め込みモデルを通じて測定される距離は、編集距離のような異なる指標では捉えにくい文字列間の意味的類似性を特定できます。実際、我々の調査では、近似文字列マッチングは、指標を過小評価する些細なアーティファクトのため、抽出可能なデータ量を(控えめに見積もっても10倍)大幅に過小評価していたでしょう。興味深いことに、SFTやRLなどのポストトレーニング段階で使用されたトレーニングデータを、モデルが容易に再生することがわかりました。このデータを使用してベースモデルをトレーニングすることで、元のパフォーマンスのかなりの部分を回復できることを示します。我々の研究は、アライメントデータの抽出に関する見過ごされがちなリスクを明らかにしたと考えています。最後に、我々の研究は、蒸留手法の下流効果に関する興味深い議論を提起します。モデルがトレーニングセットの側面を再生しているように見えるため、蒸留は間接的にモデルの元のデータセットでトレーニングを行っていると考えることができます。
English
In this work, we show that it is possible to extract significant amounts of
alignment training data from a post-trained model -- useful to steer the model
to improve certain capabilities such as long-context reasoning, safety,
instruction following, and maths. While the majority of related work on
memorisation has focused on measuring success of training data extraction
through string matching, we argue that embedding models are better suited for
our specific goals. Distances measured through a high quality embedding model
can identify semantic similarities between strings that a different metric such
as edit distance will struggle to capture. In fact, in our investigation,
approximate string matching would have severely undercounted (by a conservative
estimate of 10times) the amount of data that can be extracted due to trivial
artifacts that deflate the metric. Interestingly, we find that models readily
regurgitate training data that was used in post-training phases such as SFT or
RL. We show that this data can be then used to train a base model, recovering a
meaningful amount of the original performance. We believe our work exposes a
possibly overlooked risk towards extracting alignment data. Finally, our work
opens up an interesting discussion on the downstream effects of distillation
practices: since models seem to be regurgitating aspects of their training set,
distillation can therefore be thought of as indirectly training on the model's
original dataset.