冪等生成ネットワーク
Idempotent Generative Network
November 2, 2023
著者: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI
要旨
ニューラルネットワークをべき等(idempotent)に訓練する新しい生成モデリング手法を提案する。べき等演算子とは、繰り返し適用しても最初の適用結果を超えて変化しない演算子、すなわちf(f(z))=f(z)を満たすものである。提案モデルfは、以下の目的関数を用いて、ソース分布(例:ガウスノイズ)からターゲット分布(例:リアルな画像)へのマッピングを学習する:(1) ターゲット分布からのインスタンスはそれ自身にマッピングされる、すなわちf(x)=x。ターゲット多様体を、fによってそれ自身にマッピングされる全てのインスタンスの集合として定義する。(2) ソース分布を構成するインスタンスは、定義されたターゲット多様体上にマッピングされる。これはべき等項f(f(z))=f(z)を最適化することで達成され、f(z)の出力範囲がターゲット多様体上にあることを促す。理想的な仮定の下では、このプロセスはターゲット分布に収束することが証明されている。この戦略により、一ステップで出力を生成可能で、一貫した潜在空間を維持しつつ、精緻化のための逐次適用も可能なモデルが得られる。さらに、ターゲット分布とソース分布の両方からの入力を処理することで、モデルは破損または修正されたデータをターゲット多様体に適切に投影できることがわかる。本手法は、任意の入力をターゲットデータ分布に投影可能な「グローバルプロジェクター」に向けた第一歩である。
English
We propose a new approach for generative modeling based on training a neural
network to be idempotent. An idempotent operator is one that can be applied
sequentially without changing the result beyond the initial application, namely
f(f(z))=f(z). The proposed model f is trained to map a source distribution
(e.g, Gaussian noise) to a target distribution (e.g. realistic images) using
the following objectives: (1) Instances from the target distribution should map
to themselves, namely f(x)=x. We define the target manifold as the set of all
instances that f maps to themselves. (2) Instances that form the source
distribution should map onto the defined target manifold. This is achieved by
optimizing the idempotence term, f(f(z))=f(z) which encourages the range of
f(z) to be on the target manifold. Under ideal assumptions such a process
provably converges to the target distribution. This strategy results in a model
capable of generating an output in one step, maintaining a consistent latent
space, while also allowing sequential applications for refinement.
Additionally, we find that by processing inputs from both target and source
distributions, the model adeptly projects corrupted or modified data back to
the target manifold. This work is a first step towards a ``global projector''
that enables projecting any input into a target data distribution.