Dónde Filtran los Flujos Rectificados: Caracterización de Señales de Membresía a lo Largo del Camino de Interpolación

Resumen

Comprender qué retienen los modelos generativos de los datos de entrenamiento sigue siendo un desafío, con implicaciones para los derechos de autor y la privacidad. Más allá de la reproducción textual, los modelos pueden codificar rastros más sutiles de sus datos de entrenamiento que nunca afloran en sus salidas, pero que siguen siendo explotables. Estudiamos este régimen para los Flujos Rectificados, que se utilizan cada vez más en sistemas generativos desplegados. Analizamos la trayectoria de interpolación X_λ = (1-λ)X_0 + λX_1 que define el entrenamiento de los Flujos Rectificados. Mostramos que existe una brecha entre la reconstrucción de los datos de entrenamiento y prueba que sigue una curva en forma de campana sobre λ, la cual se acumula durante el entrenamiento, mientras que las métricas de validación se mantienen estables. La señal tiene un máximo cuya ubicación derivamos en forma cerrada bajo supuestos gaussianos. Validamos estas predicciones tanto en audio como en imágenes y mostramos que la estructura en forma de campana es universal, mientras que la predicción del pico se cumple cuando nuestros supuestos se satisfacen. Como prueba de concepto, explotamos esta estructura específica resuelta en λ para realizar un Ataque de Inferencia de Pertenencia, distinguiendo miembros del conjunto de entrenamiento de los no miembros.

English

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond verbatim reproduction, models can encode subtler traces of their training data that never surface in their outputs yet remain exploitable. We study this regime for Rectified Flows, which are increasingly used in deployed generative systems. We analyse the interpolation path X_λ= (1-λ)X_0 + λX_1 that defines the Rectified Flow training. We show that a gap exists between the reconstruction of train and test data that follows a bell-shaped curve over λ, wich accumulates during training, while the validation metrics remain stable. The signal has a maximum whose location we derive in closed form under Gaussian assumptions. We validate these predictions on both audio and images and show that the bell-shaped structure is universal, while the peak prediction holds when our assumptions are satisfied. As a proof of concept, we exploit this specific λ-resolved structure to perform a Membership Inference Attack, distinguishing members of the training set from non-members.