Rede Geradora Idempotente
Idempotent Generative Network
November 2, 2023
Autores: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI
Resumo
Propomos uma nova abordagem para modelagem generativa baseada no treinamento de uma rede neural para ser idempotente. Um operador idempotente é aquele que pode ser aplicado sequencialmente sem alterar o resultado além da aplicação inicial, ou seja, f(f(z))=f(z). O modelo proposto f é treinado para mapear uma distribuição de origem (por exemplo, ruído gaussiano) para uma distribuição alvo (por exemplo, imagens realistas) usando os seguintes objetivos: (1) Instâncias da distribuição alvo devem mapear para si mesmas, ou seja, f(x)=x. Definimos a variedade alvo como o conjunto de todas as instâncias que f mapeia para si mesmas. (2) Instâncias que compõem a distribuição de origem devem mapear para a variedade alvo definida. Isso é alcançado otimizando o termo de idempotência, f(f(z))=f(z), que incentiva o alcance de f(z) a estar na variedade alvo. Sob suposições ideais, tal processo converge comprovadamente para a distribuição alvo. Essa estratégia resulta em um modelo capaz de gerar uma saída em um único passo, mantendo um espaço latente consistente, ao mesmo tempo em que permite aplicações sequenciais para refinamento. Além disso, descobrimos que, ao processar entradas de ambas as distribuições, alvo e de origem, o modelo projeta habilmente dados corrompidos ou modificados de volta para a variedade alvo. Este trabalho é um primeiro passo em direção a um "projetor global" que permite projetar qualquer entrada em uma distribuição de dados alvo.
English
We propose a new approach for generative modeling based on training a neural
network to be idempotent. An idempotent operator is one that can be applied
sequentially without changing the result beyond the initial application, namely
f(f(z))=f(z). The proposed model f is trained to map a source distribution
(e.g, Gaussian noise) to a target distribution (e.g. realistic images) using
the following objectives: (1) Instances from the target distribution should map
to themselves, namely f(x)=x. We define the target manifold as the set of all
instances that f maps to themselves. (2) Instances that form the source
distribution should map onto the defined target manifold. This is achieved by
optimizing the idempotence term, f(f(z))=f(z) which encourages the range of
f(z) to be on the target manifold. Under ideal assumptions such a process
provably converges to the target distribution. This strategy results in a model
capable of generating an output in one step, maintaining a consistent latent
space, while also allowing sequential applications for refinement.
Additionally, we find that by processing inputs from both target and source
distributions, the model adeptly projects corrupted or modified data back to
the target manifold. This work is a first step towards a ``global projector''
that enables projecting any input into a target data distribution.