Von der Reflexion zur Perfektion: Skalierung der Inferenzzeitoptimierung für Text-zu-Bild-Diffusionsmodelle durch Reflexions-Tuning
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
April 22, 2025
Autoren: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI
Zusammenfassung
Aktuelle Text-zu-Bild-Diffusionsmodelle erreichen beeindruckende visuelle Qualität durch umfangreiche Skalierung von Trainingsdaten und Modellparametern, haben jedoch oft Schwierigkeiten mit komplexen Szenen und fein abgestuften Details. Inspiriert von den Selbstreflexionsfähigkeiten, die in großen Sprachmodellen entstehen, schlagen wir ReflectionFlow vor, ein Inferenzzeit-Framework, das Diffusionsmodellen ermöglicht, ihre Ausgaben iterativ zu reflektieren und zu verfeinern. ReflectionFlow führt drei komplementäre Skalierungsachsen zur Inferenzzeit ein: (1) Rauschpegelskala zur Optimierung der latenten Initialisierung; (2) Prompt-Ebenen-Skalierung für präzise semantische Führung; und vor allem (3) Reflexionsebenen-Skalierung, die explizit umsetzbare Reflexionen bereitstellt, um frühere Generationen iterativ zu bewerten und zu korrigieren. Um die Reflexionsebenen-Skalierung zu ermöglichen, erstellen wir GenRef, einen umfangreichen Datensatz, der 1 Million Tripel enthält, von denen jedes eine Reflexion, ein fehlerhaftes Bild und ein verbessertes Bild umfasst. Mithilfe dieses Datensatzes führen wir effizient Reflexionsabstimmung auf dem state-of-the-art Diffusions-Transformer FLUX.1-dev durch, indem wir multimodale Eingaben innerhalb eines einheitlichen Frameworks gemeinsam modellieren. Experimentelle Ergebnisse zeigen, dass ReflectionFlow naive Rauschpegelskala-Methoden deutlich übertrifft und eine skalierbare und recheneffiziente Lösung für eine höhere Qualität der Bildsynthese bei anspruchsvollen Aufgaben bietet.
English
Recent text-to-image diffusion models achieve impressive visual quality
through extensive scaling of training data and model parameters, yet they often
struggle with complex scenes and fine-grained details. Inspired by the
self-reflection capabilities emergent in large language models, we propose
ReflectionFlow, an inference-time framework enabling diffusion models to
iteratively reflect upon and refine their outputs. ReflectionFlow introduces
three complementary inference-time scaling axes: (1) noise-level scaling to
optimize latent initialization; (2) prompt-level scaling for precise semantic
guidance; and most notably, (3) reflection-level scaling, which explicitly
provides actionable reflections to iteratively assess and correct previous
generations. To facilitate reflection-level scaling, we construct GenRef, a
large-scale dataset comprising 1 million triplets, each containing a
reflection, a flawed image, and an enhanced image. Leveraging this dataset, we
efficiently perform reflection tuning on state-of-the-art diffusion
transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified
framework. Experimental results show that ReflectionFlow significantly
outperforms naive noise-level scaling methods, offering a scalable and
compute-efficient solution toward higher-quality image synthesis on challenging
tasks.Summary
AI-Generated Summary