Red Generativa Idempotente
Idempotent Generative Network
November 2, 2023
Autores: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI
Resumen
Proponemos un nuevo enfoque para el modelado generativo basado en entrenar una red neuronal para que sea idempotente. Un operador idempotente es aquel que puede aplicarse secuencialmente sin cambiar el resultado más allá de la aplicación inicial, es decir, f(f(z))=f(z). El modelo propuesto f se entrena para mapear una distribución de origen (por ejemplo, ruido gaussiano) a una distribución objetivo (por ejemplo, imágenes realistas) utilizando los siguientes objetivos: (1) Las instancias de la distribución objetivo deben mapearse a sí mismas, es decir, f(x)=x. Definimos la variedad objetivo como el conjunto de todas las instancias que f mapea a sí mismas. (2) Las instancias que forman la distribución de origen deben mapearse a la variedad objetivo definida. Esto se logra optimizando el término de idempotencia, f(f(z))=f(z), lo que fomenta que el rango de f(z) esté en la variedad objetivo. Bajo supuestos ideales, dicho proceso converge de manera demostrable a la distribución objetivo. Esta estrategia resulta en un modelo capaz de generar una salida en un solo paso, manteniendo un espacio latente consistente, mientras también permite aplicaciones secuenciales para refinamiento. Además, encontramos que al procesar entradas de ambas distribuciones, objetivo y de origen, el modelo proyecta hábilmente datos corrompidos o modificados de vuelta a la variedad objetivo. Este trabajo es un primer paso hacia un "proyector global" que permita proyectar cualquier entrada en una distribución de datos objetivo.
English
We propose a new approach for generative modeling based on training a neural
network to be idempotent. An idempotent operator is one that can be applied
sequentially without changing the result beyond the initial application, namely
f(f(z))=f(z). The proposed model f is trained to map a source distribution
(e.g, Gaussian noise) to a target distribution (e.g. realistic images) using
the following objectives: (1) Instances from the target distribution should map
to themselves, namely f(x)=x. We define the target manifold as the set of all
instances that f maps to themselves. (2) Instances that form the source
distribution should map onto the defined target manifold. This is achieved by
optimizing the idempotence term, f(f(z))=f(z) which encourages the range of
f(z) to be on the target manifold. Under ideal assumptions such a process
provably converges to the target distribution. This strategy results in a model
capable of generating an output in one step, maintaining a consistent latent
space, while also allowing sequential applications for refinement.
Additionally, we find that by processing inputs from both target and source
distributions, the model adeptly projects corrupted or modified data back to
the target manifold. This work is a first step towards a ``global projector''
that enables projecting any input into a target data distribution.