ChatPaper.aiChatPaper

Estrazione di dati di allineamento nei modelli aperti

Extracting alignment data in open models

October 21, 2025
Autori: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI

Abstract

In questo lavoro, dimostriamo che è possibile estrarre quantità significative di dati di addestramento per l'allineamento da un modello post-addestrato -- utili per orientare il modello a migliorare determinate capacità come il ragionamento su contesti lunghi, la sicurezza, il seguire istruzioni e la matematica. Mentre la maggior parte dei lavori correlati sulla memorizzazione si è concentrata sulla misurazione del successo dell'estrazione dei dati di addestramento attraverso il confronto di stringhe, sosteniamo che i modelli di embedding sono più adatti ai nostri obiettivi specifici. Le distanze misurate attraverso un modello di embedding di alta qualità possono identificare somiglianze semantiche tra stringhe che una metrica diversa, come la distanza di edit, faticherebbe a catturare. Infatti, nella nostra indagine, il confronto approssimativo di stringhe avrebbe sottostimato (con una stima conservativa di 10 volte) la quantità di dati che possono essere estratti a causa di artefatti banali che riducono la metrica. È interessante notare che scopriamo che i modelli tendono facilmente a rigurgitare i dati di addestramento utilizzati nelle fasi di post-addestramento come SFT o RL. Mostriamo che questi dati possono poi essere utilizzati per addestrare un modello di base, recuperando una quantità significativa delle prestazioni originali. Crediamo che il nostro lavoro esponga un rischio potenzialmente trascurato nell'estrazione dei dati di allineamento. Infine, il nostro lavoro apre una discussione interessante sugli effetti a valle delle pratiche di distillazione: poiché i modelli sembrano rigurgitare aspetti del loro insieme di addestramento, la distillazione può quindi essere considerata come un addestramento indiretto sul dataset originale del modello.
English
In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of 10times) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
PDF52October 22, 2025