Reflect-DiT: テキストから画像への拡散変換モデルにおける推論時のスケーリング - インコンテクストリフレクションを用いたアプローチ
Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection
March 15, 2025
著者: Shufan Li, Konstantinos Kallidromitis, Akash Gokul, Arsh Koneru, Yusuke Kato, Kazuki Kozuka, Aditya Grover
cs.AI
要旨
テキストから画像生成の進歩における主要なアプローチは、より大規模なモデルをより多くのデータで、より多くの計算リソースを使用して訓練する「訓練時スケーリング」でした。このアプローチは効果的ではあるものの、計算コストが高く、そのため、推論時スケーリングによる性能向上への関心が高まっています。現在、テキストから画像生成の拡散モデルにおける推論時スケーリングは、主に「best-of-Nサンプリング」に限定されています。これは、プロンプトごとに複数の画像を生成し、選択モデルが最良の出力を選ぶ方法です。最近、言語領域でDeepSeek-R1のような推論モデルが成功したことに触発され、我々は単純なbest-of-Nサンプリングに代わる方法として、テキストから画像生成のDiffusion Transformerに「文脈内反映能力」を組み込むことを提案します。我々は、Reflect-DiTという手法を提案します。これは、Diffusion Transformerが、以前に生成された画像の文脈内例と、必要な改善点を説明するテキストフィードバックを使用して、生成を洗練できるようにするものです。Reflect-DiTは、受動的にランダムサンプリングに頼り、将来の生成でより良い結果を期待するのではなく、改善が必要な特定の側面に対処するために生成を明示的に調整します。実験結果は、Reflect-DiTがベースモデルとしてSANA-1.0-1.6Bを使用して、GenEvalベンチマークで性能を向上させる(+0.19)ことを示しています。さらに、プロンプトごとに20サンプルしか生成しない場合でも、GenEvalで0.81という新たな最先端スコアを達成し、best-of-Nアプローチで2048サンプルを使用した大幅に大規模なモデル(SANA-1.5-4.8B)で得られた以前の最高スコア0.80を上回りました。
English
The predominant approach to advancing text-to-image generation has been
training-time scaling, where larger models are trained on more data using
greater computational resources. While effective, this approach is
computationally expensive, leading to growing interest in inference-time
scaling to improve performance. Currently, inference-time scaling for
text-to-image diffusion models is largely limited to best-of-N sampling, where
multiple images are generated per prompt and a selection model chooses the best
output. Inspired by the recent success of reasoning models like DeepSeek-R1 in
the language domain, we introduce an alternative to naive best-of-N sampling by
equipping text-to-image Diffusion Transformers with in-context reflection
capabilities. We propose Reflect-DiT, a method that enables Diffusion
Transformers to refine their generations using in-context examples of
previously generated images alongside textual feedback describing necessary
improvements. Instead of passively relying on random sampling and hoping for a
better result in a future generation, Reflect-DiT explicitly tailors its
generations to address specific aspects requiring enhancement. Experimental
results demonstrate that Reflect-DiT improves performance on the GenEval
benchmark (+0.19) using SANA-1.0-1.6B as a base model. Additionally, it
achieves a new state-of-the-art score of 0.81 on GenEval while generating only
20 samples per prompt, surpassing the previous best score of 0.80, which was
obtained using a significantly larger model (SANA-1.5-4.8B) with 2048 samples
under the best-of-N approach.Summary
AI-Generated Summary