Où les flots rectifiés fuient : caractérisation des signaux d'appartenance le long du chemin d'interpolation

Résumé

Comprendre ce que les modèles génératifs retiennent des données d'entraînement reste un défi, avec des implications pour le droit d'auteur et la vie privée. Au-delà de la reproduction textuelle, les modèles peuvent encoder des traces plus subtiles de leurs données d'entraînement qui n'apparaissent jamais dans leurs résultats mais restent exploitables. Nous étudions ce régime pour les Flux rectifiés, de plus en plus utilisés dans les systèmes génératifs déployés. Nous analysons le chemin d'interpolation X_λ = (1-λ)X_0 + λX_1 qui définit l'entraînement des Flux rectifiés. Nous montrons qu'il existe un écart entre la reconstruction des données d'entraînement et de test, qui suit une courbe en cloche en fonction de λ, cet écart s'accumulant durant l'entraînement tandis que les métriques de validation restent stables. Le signal présente un maximum dont nous dérivons la localisation sous forme fermée sous des hypothèses gaussiennes. Nous validons ces prédictions à la fois sur de l'audio et des images, et montrons que la structure en cloche est universelle, tandis que la prédiction du pic tient lorsque nos hypothèses sont satisfaites. Comme preuve de concept, nous exploitons cette structure spécifique résolue en λ pour réaliser une attaque par inférence d'appartenance, distinguant les membres de l'ensemble d'entraînement des non-membres.

English

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond verbatim reproduction, models can encode subtler traces of their training data that never surface in their outputs yet remain exploitable. We study this regime for Rectified Flows, which are increasingly used in deployed generative systems. We analyse the interpolation path X_λ= (1-λ)X_0 + λX_1 that defines the Rectified Flow training. We show that a gap exists between the reconstruction of train and test data that follows a bell-shaped curve over λ, wich accumulates during training, while the validation metrics remain stable. The signal has a maximum whose location we derive in closed form under Gaussian assumptions. We validate these predictions on both audio and images and show that the bell-shaped structure is universal, while the peak prediction holds when our assumptions are satisfied. As a proof of concept, we exploit this specific λ-resolved structure to perform a Membership Inference Attack, distinguishing members of the training set from non-members.