反射から完璧へ:リフレクションチューニングによるテキストto画像拡散モデルの推論時最適化のスケーリング
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
April 22, 2025
著者: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI
要旨
最近のテキストから画像への拡散モデルは、トレーニングデータとモデルパラメータの大規模なスケーリングを通じて印象的な視覚品質を達成していますが、複雑なシーンや細部の表現には苦戦することが多いです。大規模言語モデルに現れる自己反映能力に着想を得て、我々はReflectionFlowを提案します。これは、拡散モデルが出力を反復的に反映し、洗練することを可能にする推論時フレームワークです。ReflectionFlowは、3つの補完的な推論時スケーリング軸を導入します:(1) 潜在初期化を最適化するためのノイズレベルスケーリング、(2) 正確な意味的ガイダンスのためのプロンプトレベルスケーリング、そして最も注目すべきは、(3) 反射レベルスケーリングです。これは、以前の生成を反復的に評価し、修正するための具体的な反映を明示的に提供します。反射レベルスケーリングを促進するために、我々はGenRefという大規模データセットを構築しました。このデータセットは、100万のトリプレットを含み、各トリプレットは、反映、欠陥のある画像、および強化された画像で構成されています。このデータセットを活用し、最先端の拡散トランスフォーマーであるFLUX.1-devに対して、統一されたフレームワーク内でマルチモーダル入力を共同モデル化することにより、効率的に反射チューニングを実行します。実験結果は、ReflectionFlowが単純なノイズレベルスケーリング手法を大幅に上回り、困難なタスクにおける高品質な画像合成に向けたスケーラブルで計算効率の良いソリューションを提供することを示しています。
English
Recent text-to-image diffusion models achieve impressive visual quality
through extensive scaling of training data and model parameters, yet they often
struggle with complex scenes and fine-grained details. Inspired by the
self-reflection capabilities emergent in large language models, we propose
ReflectionFlow, an inference-time framework enabling diffusion models to
iteratively reflect upon and refine their outputs. ReflectionFlow introduces
three complementary inference-time scaling axes: (1) noise-level scaling to
optimize latent initialization; (2) prompt-level scaling for precise semantic
guidance; and most notably, (3) reflection-level scaling, which explicitly
provides actionable reflections to iteratively assess and correct previous
generations. To facilitate reflection-level scaling, we construct GenRef, a
large-scale dataset comprising 1 million triplets, each containing a
reflection, a flawed image, and an enhanced image. Leveraging this dataset, we
efficiently perform reflection tuning on state-of-the-art diffusion
transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified
framework. Experimental results show that ReflectionFlow significantly
outperforms naive noise-level scaling methods, offering a scalable and
compute-efficient solution toward higher-quality image synthesis on challenging
tasks.Summary
AI-Generated Summary