ChatPaper.aiChatPaper

Idempotent Generatief Netwerk

Idempotent Generative Network

November 2, 2023
Auteurs: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI

Samenvatting

We stellen een nieuwe benadering voor voor generatief modelleren, gebaseerd op het trainen van een neuraal netwerk om idempotent te zijn. Een idempotente operator is een operator die sequentieel kan worden toegepast zonder dat het resultaat verandert na de eerste toepassing, namelijk f(f(z))=f(z). Het voorgestelde model f wordt getraind om een brondistributie (bijvoorbeeld Gaussische ruis) af te beelden op een doeldistributie (bijvoorbeeld realistische afbeeldingen) met behulp van de volgende doelstellingen: (1) Instanties uit de doeldistributie moeten op zichzelf worden afgebeeld, namelijk f(x)=x. We definiëren het doelvariëteit als de verzameling van alle instanties die f op zichzelf afbeeldt. (2) Instanties die de brondistributie vormen, moeten worden afgebeeld op het gedefinieerde doelvariëteit. Dit wordt bereikt door de idempotentieterm f(f(z))=f(z) te optimaliseren, wat ervoor zorgt dat het bereik van f(z) op het doelvariëteit ligt. Onder ideale aannames convergeert een dergelijk proces bewezen naar de doeldistributie. Deze strategie resulteert in een model dat in één stap een uitvoer kan genereren, een consistent latente ruimte behoudt, en tegelijkertijd sequentiële toepassingen voor verfijning mogelijk maakt. Daarnaast ontdekken we dat door invoer van zowel de doel- als de brondistributie te verwerken, het model beschadigde of gewijzigde gegevens vakkundig terugprojecteert naar het doelvariëteit. Dit werk is een eerste stap naar een ``globale projector'' die het mogelijk maakt om elke invoer te projecteren in een doelgegevensdistributie.
English
We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely f(f(z))=f(z). The proposed model f is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely f(x)=x. We define the target manifold as the set of all instances that f maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, f(f(z))=f(z) which encourages the range of f(z) to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a ``global projector'' that enables projecting any input into a target data distribution.
PDF254February 7, 2026