Onde os Fluxos Retificados Vazam: Caracterizando Sinais de Pertencimento ao Longo do Caminho de Interpolação

Resumo

Compreender o que os modelos generativos retêm dos dados de treinamento continua sendo um desafio, com implicações para direitos autorais e privacidade. Além da reprodução literal, os modelos podem codificar vestígios mais sutis de seus dados de treinamento que nunca emergem em suas saídas, mas permanecem exploráveis. Estudamos esse regime para Fluxos Retificados, que são cada vez mais utilizados em sistemas generativos implantados. Analisamos o caminho de interpolação X_λ= (1-λ)X_0 + λX_1 que define o treinamento do Fluxo Retificado. Mostramos que existe uma lacuna entre a reconstrução dos dados de treino e teste que segue uma curva em forma de sino ao longo de λ, que se acumula durante o treinamento, enquanto as métricas de validação permanecem estáveis. O sinal possui um máximo cuja localização derivamos em forma fechada sob suposições gaussianas. Validamos essas previsões tanto em áudio quanto em imagens e mostramos que a estrutura em forma de sino é universal, enquanto a previsão do pico se mantém quando nossas suposições são satisfeitas. Como prova de conceito, exploramos essa estrutura específica resolvida em λ para realizar um Ataque de Inferência de Pertencimento, distinguindo membros do conjunto de treinamento de não membros.

English

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond verbatim reproduction, models can encode subtler traces of their training data that never surface in their outputs yet remain exploitable. We study this regime for Rectified Flows, which are increasingly used in deployed generative systems. We analyse the interpolation path X_λ= (1-λ)X_0 + λX_1 that defines the Rectified Flow training. We show that a gap exists between the reconstruction of train and test data that follows a bell-shaped curve over λ, wich accumulates during training, while the validation metrics remain stable. The signal has a maximum whose location we derive in closed form under Gaussian assumptions. We validate these predictions on both audio and images and show that the bell-shaped structure is universal, while the peak prediction holds when our assumptions are satisfied. As a proof of concept, we exploit this specific λ-resolved structure to perform a Membership Inference Attack, distinguishing members of the training set from non-members.