Wo Rectified Flows lecken: Charakterisierung von Mitgliedschaftssignalen entlang des Interpolationspfades

Zusammenfassung

Das Verständnis darüber, was generative Modelle aus Trainingsdaten behalten, bleibt eine Herausforderung mit Implikationen für Urheberrecht und Datenschutz. Über die wörtliche Wiedergabe hinaus können Modelle subtilere Spuren ihrer Trainingsdaten kodieren, die nie in ihren Ausgaben sichtbar werden, aber dennoch ausgenutzt werden können. Wir untersuchen dieses Regime für Rectified Flows, die zunehmend in eingesetzten generativen Systemen verwendet werden. Wir analysieren den Interpolationspfad X_λ = (1-λ)X_0 + λX_1, der das Training von Rectified Flows definiert. Wir zeigen, dass eine Lücke zwischen der Rekonstruktion von Trainings- und Testdaten besteht, die einer glockenförmigen Kurve über λ folgt, sich während des Trainings akkumuliert, während die Validierungsmetriken stabil bleiben. Das Signal hat ein Maximum, dessen Lage wir unter Gaußschen Annahmen in geschlossener Form ableiten. Wir validieren diese Vorhersagen sowohl für Audio als auch für Bilder und zeigen, dass die glockenförmige Struktur universell ist, während die Vorhersage des Maximums gilt, wenn unsere Annahmen erfüllt sind. Als Machbarkeitsnachweis nutzen wir diese spezifische λ-aufgelöste Struktur, um einen Membership Inference Attack durchzuführen, der Mitglieder des Trainingssatzes von Nichtmitgliedern unterscheidet.

English

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond verbatim reproduction, models can encode subtler traces of their training data that never surface in their outputs yet remain exploitable. We study this regime for Rectified Flows, which are increasingly used in deployed generative systems. We analyse the interpolation path X_λ= (1-λ)X_0 + λX_1 that defines the Rectified Flow training. We show that a gap exists between the reconstruction of train and test data that follows a bell-shaped curve over λ, wich accumulates during training, while the validation metrics remain stable. The signal has a maximum whose location we derive in closed form under Gaussian assumptions. We validate these predictions on both audio and images and show that the bell-shaped structure is universal, while the peak prediction holds when our assumptions are satisfied. As a proof of concept, we exploit this specific λ-resolved structure to perform a Membership Inference Attack, distinguishing members of the training set from non-members.