ChatPaper.aiChatPaper

Extraction des données d'alignement dans les modèles ouverts

Extracting alignment data in open models

October 21, 2025
papers.authors: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI

papers.abstract

Dans ce travail, nous démontrons qu'il est possible d'extraire des quantités significatives de données d'entraînement d'alignement à partir d'un modèle post-entraîné — utiles pour orienter le modèle afin d'améliorer certaines capacités telles que le raisonnement sur de longs contextes, la sécurité, le suivi d'instructions et les mathématiques. Alors que la majorité des travaux connexes sur la mémorisation se sont concentrés sur la mesure du succès de l'extraction des données d'entraînement via la correspondance de chaînes de caractères, nous soutenons que les modèles d'embedding sont mieux adaptés à nos objectifs spécifiques. Les distances mesurées à travers un modèle d'embedding de haute qualité peuvent identifier des similitudes sémantiques entre des chaînes de caractères qu'une métrique différente, telle que la distance d'édition, aura du mal à capturer. En fait, dans notre investigation, la correspondance approximative de chaînes de caractères aurait gravement sous-estimé (par une estimation conservatrice de 10 fois) la quantité de données pouvant être extraites en raison d'artefacts triviaux qui dévalorisent la métrique. Fait intéressant, nous constatons que les modèles régurgitent facilement les données d'entraînement utilisées lors des phases de post-entraînement telles que le SFT ou le RL. Nous montrons que ces données peuvent ensuite être utilisées pour entraîner un modèle de base, récupérant ainsi une part significative des performances originales. Nous croyons que notre travail expose un risque potentiellement négligé concernant l'extraction des données d'alignement. Enfin, notre travail ouvre une discussion intéressante sur les effets en aval des pratiques de distillation : puisque les modèles semblent régurgiter des aspects de leur ensemble d'entraînement, la distillation peut donc être considérée comme un entraînement indirect sur le jeu de données original du modèle.
English
In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of 10times) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
PDF52October 22, 2025