ChatPaper.aiChatPaper

Réseau Génératif Idempotent

Idempotent Generative Network

November 2, 2023
Auteurs: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI

Résumé

Nous proposons une nouvelle approche pour la modélisation générative basée sur l'entraînement d'un réseau de neurones à être idempotent. Un opérateur idempotent est un opérateur qui peut être appliqué séquentiellement sans modifier le résultat au-delà de l'application initiale, c'est-à-dire f(f(z))=f(z). Le modèle proposé f est entraîné à mapper une distribution source (par exemple, un bruit gaussien) vers une distribution cible (par exemple, des images réalistes) en utilisant les objectifs suivants : (1) Les instances de la distribution cible doivent se mapper sur elles-mêmes, c'est-à-dire f(x)=x. Nous définissons la variété cible comme l'ensemble de toutes les instances que f mappe sur elles-mêmes. (2) Les instances qui forment la distribution source doivent être mappées sur la variété cible définie. Cela est réalisé en optimisant le terme d'idempotence, f(f(z))=f(z), qui encourage l'étendue de f(z) à se situer sur la variété cible. Sous des hypothèses idéales, un tel processus converge de manière prouvée vers la distribution cible. Cette stratégie aboutit à un modèle capable de générer une sortie en une seule étape, tout en maintenant un espace latent cohérent, et en permettant également des applications séquentielles pour un raffinement. De plus, nous constatons qu'en traitant des entrées provenant à la fois des distributions cible et source, le modèle projette habilement des données corrompues ou modifiées vers la variété cible. Ce travail constitue une première étape vers un « projecteur global » qui permet de projeter toute entrée dans une distribution de données cible.
English
We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely f(f(z))=f(z). The proposed model f is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely f(x)=x. We define the target manifold as the set of all instances that f maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, f(f(z))=f(z) which encourages the range of f(z) to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a ``global projector'' that enables projecting any input into a target data distribution.
PDF264December 15, 2024