ChatPaper.aiChatPaper

Rete Generativa Idempotente

Idempotent Generative Network

November 2, 2023
Autori: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI

Abstract

Proponiamo un nuovo approccio per la modellazione generativa basato sull'addestramento di una rete neurale affinché sia idempotente. Un operatore idempotente è quello che può essere applicato sequenzialmente senza modificare il risultato oltre l'applicazione iniziale, ovvero f(f(z))=f(z). Il modello proposto f viene addestrato per mappare una distribuzione sorgente (ad esempio, rumore gaussiano) a una distribuzione target (ad esempio, immagini realistiche) utilizzando i seguenti obiettivi: (1) Le istanze della distribuzione target dovrebbero mappare su se stesse, ovvero f(x)=x. Definiamo la varietà target come l'insieme di tutte le istanze che f mappa su se stesse. (2) Le istanze che formano la distribuzione sorgente dovrebbero mappare sulla varietà target definita. Questo viene ottenuto ottimizzando il termine di idempotenza, f(f(z))=f(z), che incoraggia il range di f(z) a trovarsi sulla varietà target. In condizioni ideali, un tale processo converge dimostrabilmente alla distribuzione target. Questa strategia risulta in un modello capace di generare un output in un singolo passaggio, mantenendo uno spazio latente consistente, mentre permette anche applicazioni sequenziali per il perfezionamento. Inoltre, scopriamo che elaborando input sia dalla distribuzione target che da quella sorgente, il modello proietta abilmente dati corrotti o modificati di nuovo sulla varietà target. Questo lavoro rappresenta un primo passo verso un "proiettore globale" che consente di proiettare qualsiasi input in una distribuzione di dati target.
English
We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely f(f(z))=f(z). The proposed model f is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely f(x)=x. We define the target manifold as the set of all instances that f maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, f(f(z))=f(z) which encourages the range of f(z) to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a ``global projector'' that enables projecting any input into a target data distribution.
PDF254February 7, 2026