ChatPaper.aiChatPaper

冪等生成ネットワーク

Idempotent Generative Network

November 2, 2023
著者: Assaf Shocher, Amil Dravid, Yossi Gandelsman, Inbar Mosseri, Michael Rubinstein, Alexei A. Efros
cs.AI

要旨

ニューラルネットワークをべき等(idempotent)に訓練する新しい生成モデリング手法を提案する。べき等演算子とは、繰り返し適用しても最初の適用結果を超えて変化しない演算子、すなわちf(f(z))=f(z)を満たすものである。提案モデルfは、以下の目的関数を用いて、ソース分布(例:ガウスノイズ)からターゲット分布(例:リアルな画像)へのマッピングを学習する:(1) ターゲット分布からのインスタンスはそれ自身にマッピングされる、すなわちf(x)=x。ターゲット多様体を、fによってそれ自身にマッピングされる全てのインスタンスの集合として定義する。(2) ソース分布を構成するインスタンスは、定義されたターゲット多様体上にマッピングされる。これはべき等項f(f(z))=f(z)を最適化することで達成され、f(z)の出力範囲がターゲット多様体上にあることを促す。理想的な仮定の下では、このプロセスはターゲット分布に収束することが証明されている。この戦略により、一ステップで出力を生成可能で、一貫した潜在空間を維持しつつ、精緻化のための逐次適用も可能なモデルが得られる。さらに、ターゲット分布とソース分布の両方からの入力を処理することで、モデルは破損または修正されたデータをターゲット多様体に適切に投影できることがわかる。本手法は、任意の入力をターゲットデータ分布に投影可能な「グローバルプロジェクター」に向けた第一歩である。
English
We propose a new approach for generative modeling based on training a neural network to be idempotent. An idempotent operator is one that can be applied sequentially without changing the result beyond the initial application, namely f(f(z))=f(z). The proposed model f is trained to map a source distribution (e.g, Gaussian noise) to a target distribution (e.g. realistic images) using the following objectives: (1) Instances from the target distribution should map to themselves, namely f(x)=x. We define the target manifold as the set of all instances that f maps to themselves. (2) Instances that form the source distribution should map onto the defined target manifold. This is achieved by optimizing the idempotence term, f(f(z))=f(z) which encourages the range of f(z) to be on the target manifold. Under ideal assumptions such a process provably converges to the target distribution. This strategy results in a model capable of generating an output in one step, maintaining a consistent latent space, while also allowing sequential applications for refinement. Additionally, we find that by processing inputs from both target and source distributions, the model adeptly projects corrupted or modified data back to the target manifold. This work is a first step towards a ``global projector'' that enables projecting any input into a target data distribution.
PDF264December 15, 2024