Waar Gerektificeerde Stromen Lekken: Het Karakteriseren van Lidmaatschapssignalen Langs het Interpolatiepad

Samenvatting

Het begrijpen van wat generatieve modellen van trainingsgegevens behouden blijft uitdagend, met implicaties voor auteursrecht en privacy. Naast letterlijke reproductie kunnen modellen subtielere sporen van hun trainingsgegevens coderen die nooit in hun uitvoer verschijnen maar toch exploiteerbaar blijven. We bestuderen dit regime voor Rectified Flows, die steeds vaker worden gebruikt in ingezette generatieve systemen. We analyseren het interpolatiepad X_λ = (1-λ)X_0 + λX_1 dat de Rectified Flow-training definieert. We tonen aan dat er een kloof bestaat tussen de reconstructie van trainings- en testgegevens die een klokvormige curve over λ volgt, die tijdens de training accumuleert, terwijl de validatiemetrieken stabiel blijven. Het signaal heeft een maximum waarvan we de locatie in gesloten vorm afleiden onder Gaussiaanse aannames. We valideren deze voorspellingen op zowel audio als afbeeldingen en tonen aan dat de klokvormige structuur universeel is, terwijl de piekvoorspelling geldt wanneer aan onze aannames wordt voldaan. Als proof of concept maken we gebruik van deze specifieke λ-opgeloste structuur om een lidmaatschapsinferentieaanval uit te voeren, waarbij leden van de trainingsset van niet-leden worden onderscheiden.

English

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond verbatim reproduction, models can encode subtler traces of their training data that never surface in their outputs yet remain exploitable. We study this regime for Rectified Flows, which are increasingly used in deployed generative systems. We analyse the interpolation path X_λ= (1-λ)X_0 + λX_1 that defines the Rectified Flow training. We show that a gap exists between the reconstruction of train and test data that follows a bell-shaped curve over λ, wich accumulates during training, while the validation metrics remain stable. The signal has a maximum whose location we derive in closed form under Gaussian assumptions. We validate these predictions on both audio and images and show that the bell-shaped structure is universal, while the peak prediction holds when our assumptions are satisfied. As a proof of concept, we exploit this specific λ-resolved structure to perform a Membership Inference Attack, distinguishing members of the training set from non-members.