Где выпрямленные потоки дают утечку: характеристика сигналов принадлежности вдоль пути интерполяции

Аннотация

Понимание того, что генеративные модели сохраняют из обучающих данных, остается сложной задачей, имеющей последствия для авторского права и конфиденциальности. Помимо дословного воспроизведения, модели могут кодировать более тонкие следы своих обучающих данных, которые никогда не проявляются в их выходных данных, но остаются пригодными для использования. Мы изучаем этот режим для Rectified Flows, которые все чаще используются в развернутых генеративных системах. Мы анализируем интерполяционный путь X_λ = (1-λ)X_0 + λX_1, который определяет обучение Rectified Flow. Мы показываем, что существует разрыв между восстановлением обучающих и тестовых данных, который следует колоколообразной кривой по λ, накапливаясь в процессе обучения, в то время как метрики валидации остаются стабильными. Сигнал имеет максимум, местоположение которого мы выводим в замкнутой форме при гауссовых предположениях. Мы проверяем эти предсказания как на аудио, так и на изображениях и показываем, что колоколообразная структура является универсальной, в то время как предсказание пика выполняется при соблюдении наших предположений. В качестве доказательства концепции мы используем эту специфическую λ-разрешенную структуру для проведения атаки по определению принадлежности к обучающему набору, отличая элементы обучающего набора от не входящих в него.

English

Understanding what generative models retain from training data remains challenging, with implications for copyright and privacy. Beyond verbatim reproduction, models can encode subtler traces of their training data that never surface in their outputs yet remain exploitable. We study this regime for Rectified Flows, which are increasingly used in deployed generative systems. We analyse the interpolation path X_λ= (1-λ)X_0 + λX_1 that defines the Rectified Flow training. We show that a gap exists between the reconstruction of train and test data that follows a bell-shaped curve over λ, wich accumulates during training, while the validation metrics remain stable. The signal has a maximum whose location we derive in closed form under Gaussian assumptions. We validate these predictions on both audio and images and show that the bell-shaped structure is universal, while the peak prediction holds when our assumptions are satisfied. As a proof of concept, we exploit this specific λ-resolved structure to perform a Membership Inference Attack, distinguishing members of the training set from non-members.