ChatPaper.aiChatPaper

De la réflexion à la perfection : Mise à l'échelle de l'optimisation au moment de l'inférence pour les modèles de diffusion texte-image via l'ajustement par réflexion

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

April 22, 2025
Auteurs: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI

Résumé

Les récents modèles de diffusion texte-image atteignent une qualité visuelle impressionnante grâce à une mise à l'échelle extensive des données d'entraînement et des paramètres du modèle, mais ils peinent souvent avec des scènes complexes et des détails fins. Inspirés par les capacités d'auto-réflexion émergentes des grands modèles de langage, nous proposons ReflectionFlow, un cadre d'inférence permettant aux modèles de diffusion de réfléchir et d'affiner leurs sorties de manière itérative. ReflectionFlow introduit trois axes complémentaires de mise à l'échelle lors de l'inférence : (1) la mise à l'échelle au niveau du bruit pour optimiser l'initialisation latente ; (2) la mise à l'échelle au niveau de l'invite pour un guidage sémantique précis ; et surtout, (3) la mise à l'échelle au niveau de la réflexion, qui fournit explicitement des réflexions actionnables pour évaluer et corriger les générations précédentes de manière itérative. Pour faciliter la mise à l'échelle au niveau de la réflexion, nous construisons GenRef, un jeu de données à grande échelle comprenant 1 million de triplets, chacun contenant une réflexion, une image défectueuse et une image améliorée. En exploitant ce jeu de données, nous effectuons efficacement un ajustement par réflexion sur le transformateur de diffusion de pointe, FLUX.1-dev, en modélisant conjointement les entrées multimodales dans un cadre unifié. Les résultats expérimentaux montrent que ReflectionFlow surpasse significativement les méthodes naïves de mise à l'échelle au niveau du bruit, offrant une solution évolutive et efficace en termes de calcul pour une synthèse d'images de meilleure qualité sur des tâches complexes.
English
Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

Summary

AI-Generated Summary

PDF152April 23, 2025