自己回帰的画像生成のための意味論的に認識された順序の蒸留
Distilling semantically aware orders for autoregressive image generation
April 23, 2025
著者: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli
cs.AI
要旨
オートリグレッシブなパッチベースの画像生成は、最近、画像品質とスケーラビリティの面で競争力のある結果を示しています。また、ビジョン・ランゲージモデル内で容易に統合およびスケールすることができます。しかしながら、オートリグレッシブモデルはパッチ生成のための定義された順序を必要とします。テキスト生成においては単語の指示に基づく自然な順序が理にかなっていますが、画像生成においては本質的な生成順序が存在しません。伝統的に、ラスタースキャン順序(左上から右下へ)がオートリグレッシブ画像生成モデルを導いています。本論文では、この順序が最適ではないと主張します。なぜなら、画像内容の因果関係を尊重しないからです。例えば、夕日の視覚的記述に基づいて条件付けられた場合、オートリグレッシブモデルは太陽よりも先に雲を生成するかもしれませんが、雲の色は太陽の色に依存すべきであり、その逆ではありません。本研究では、まず、任意の順序でパッチを生成するようにモデルを訓練することで、生成中に各パッチの内容と位置(順序)を推論できることを示します。次に、これらの抽出された順序を使用して、任意の順序モデルを微調整し、より高品質な画像を生成します。実験を通じて、この新しい生成方法が、従来のラスタースキャンアプローチよりも優れた画像を生成することを2つのデータセットで示し、同様のトレーニングコストと追加のアノテーションなしで実現できることを示します。
English
Autoregressive patch-based image generation has recently shown competitive
results in terms of image quality and scalability. It can also be easily
integrated and scaled within Vision-Language models. Nevertheless,
autoregressive models require a defined order for patch generation. While a
natural order based on the dictation of the words makes sense for text
generation, there is no inherent generation order that exists for image
generation. Traditionally, a raster-scan order (from top-left to bottom-right)
guides autoregressive image generation models. In this paper, we argue that
this order is suboptimal, as it fails to respect the causality of the image
content: for instance, when conditioned on a visual description of a sunset, an
autoregressive model may generate clouds before the sun, even though the color
of clouds should depend on the color of the sun and not the inverse. In this
work, we show that first by training a model to generate patches in
any-given-order, we can infer both the content and the location (order) of each
patch during generation. Secondly, we use these extracted orders to finetune
the any-given-order model to produce better-quality images. Through our
experiments, we show on two datasets that this new generation method produces
better images than the traditional raster-scan approach, with similar training
costs and no extra annotations.Summary
AI-Generated Summary