ChatPaper.aiChatPaper

Idempotentes Generatives Netzwerk

Idempotent Generative Network

November 2, 2023
Autoren: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI

Zusammenfassung

Wir schlagen einen neuen Ansatz für generatives Modellieren vor, der darauf basiert, ein neuronales Netzwerk so zu trainieren, dass es idempotent ist. Ein idempotenter Operator ist einer, der sequenziell angewendet werden kann, ohne das Ergebnis über die erste Anwendung hinaus zu verändern, d.h. f(f(z))=f(z). Das vorgeschlagene Modell f wird trainiert, um eine Quellverteilung (z.B. Gaußsches Rauschen) auf eine Zielverteilung (z.B. realistische Bilder) abzubilden, wobei die folgenden Ziele verfolgt werden: (1) Instanzen aus der Zielverteilung sollten auf sich selbst abgebildet werden, d.h. f(x)=x. Wir definieren die Zielmannigfaltigkeit als die Menge aller Instanzen, die f auf sich selbst abbildet. (2) Instanzen, die die Quellverteilung bilden, sollten auf die definierte Zielmannigfaltigkeit abgebildet werden. Dies wird durch die Optimierung des Idempotenzterms f(f(z))=f(z) erreicht, der den Wertebereich von f(z) dazu anregt, auf der Zielmannigfaltigkeit zu liegen. Unter idealen Annahmen konvergiert ein solcher Prozess nachweislich gegen die Zielverteilung. Diese Strategie führt zu einem Modell, das in der Lage ist, eine Ausgabe in einem Schritt zu generieren, einen konsistenten latenten Raum beizubehalten und gleichzeitig sequenzielle Anwendungen zur Verfeinerung zu ermöglichen. Zusätzlich stellen wir fest, dass das Modell durch die Verarbeitung von Eingaben aus sowohl der Ziel- als auch der Quellverteilung geschickt beschädigte oder modifizierte Daten zurück auf die Zielmannigfaltigkeit projiziert. Diese Arbeit ist ein erster Schritt hin zu einem „globalen Projektor“, der es ermöglicht, jede Eingabe in eine Zieldatenverteilung zu projizieren.
English
We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely f(f(z))=f(z). The proposed model f is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely f(x)=x. We define the target manifold as the set of all instances that f maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, f(f(z))=f(z) which encourages the range of f(z) to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a ``global projector'' that enables projecting any input into a target data distribution.
PDF264December 15, 2024