ChatPaper.aiChatPaper

Extracción de datos de alineación en modelos abiertos

Extracting alignment data in open models

October 21, 2025
Autores: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes
cs.AI

Resumen

En este trabajo, demostramos que es posible extraer cantidades significativas de datos de entrenamiento de alineación de un modelo post-entrenado, lo cual es útil para guiar al modelo a mejorar ciertas capacidades, como el razonamiento de contexto largo, la seguridad, el seguimiento de instrucciones y las matemáticas. Si bien la mayoría de los trabajos relacionados sobre memorización se han centrado en medir el éxito de la extracción de datos de entrenamiento mediante la coincidencia de cadenas, argumentamos que los modelos de incrustación son más adecuados para nuestros objetivos específicos. Las distancias medidas a través de un modelo de incrustación de alta calidad pueden identificar similitudes semánticas entre cadenas que una métrica diferente, como la distancia de edición, tendría dificultades para capturar. De hecho, en nuestra investigación, la coincidencia aproximada de cadenas habría subestimado gravemente (por una estimación conservadora de 10 veces) la cantidad de datos que se pueden extraer debido a artefactos triviales que reducen la métrica. Curiosamente, encontramos que los modelos regurgitan fácilmente los datos de entrenamiento que se utilizaron en fases de post-entrenamiento, como SFT o RL. Demostramos que estos datos pueden usarse luego para entrenar un modelo base, recuperando una cantidad significativa del rendimiento original. Creemos que nuestro trabajo expone un riesgo posiblemente pasado por alto hacia la extracción de datos de alineación. Finalmente, nuestro trabajo abre una discusión interesante sobre los efectos posteriores de las prácticas de destilación: dado que los modelos parecen estar regurgitando aspectos de su conjunto de entrenamiento, la destilación puede considerarse, por lo tanto, como un entrenamiento indirecto en el conjunto de datos original del modelo.
English
In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of 10times) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
PDF52October 22, 2025