Da Reflexão à Perfeição: Escalonando a Otimização em Tempo de Inferência para Modelos de Difusão de Texto para Imagem via Reflexão Tuning
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
April 22, 2025
Autores: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI
Resumo
Modelos recentes de difusão de texto para imagem alcançam qualidade visual impressionante por meio de uma ampla escalonamento de dados de treinamento e parâmetros do modelo, mas frequentemente enfrentam dificuldades com cenas complexas e detalhes refinados. Inspirados pelas capacidades de autorreflexão emergentes em grandes modelos de linguagem, propomos o ReflectionFlow, um framework de inferência que permite que modelos de difusão reflitam e refinem iterativamente suas saídas. O ReflectionFlow introduz três eixos complementares de escalonamento durante a inferência: (1) escalonamento de nível de ruído para otimizar a inicialização latente; (2) escalonamento de nível de prompt para orientação semântica precisa; e, mais notavelmente, (3) escalonamento de nível de reflexão, que fornece explicitamente reflexões acionáveis para avaliar e corrigir iterativamente gerações anteriores. Para facilitar o escalonamento de nível de reflexão, construímos o GenRef, um conjunto de dados em larga escala composto por 1 milhão de triplas, cada uma contendo uma reflexão, uma imagem com falhas e uma imagem aprimorada. Utilizando esse conjunto de dados, realizamos de forma eficiente o ajuste de reflexão no transformer de difusão state-of-the-art, FLUX.1-dev, modelando conjuntamente entradas multimodais em um framework unificado. Resultados experimentais mostram que o ReflectionFlow supera significativamente métodos ingênuos de escalonamento de nível de ruído, oferecendo uma solução escalável e computacionalmente eficiente para síntese de imagens de alta qualidade em tarefas desafiadoras.
English
Recent text-to-image diffusion models achieve impressive visual quality
through extensive scaling of training data and model parameters, yet they often
struggle with complex scenes and fine-grained details. Inspired by the
self-reflection capabilities emergent in large language models, we propose
ReflectionFlow, an inference-time framework enabling diffusion models to
iteratively reflect upon and refine their outputs. ReflectionFlow introduces
three complementary inference-time scaling axes: (1) noise-level scaling to
optimize latent initialization; (2) prompt-level scaling for precise semantic
guidance; and most notably, (3) reflection-level scaling, which explicitly
provides actionable reflections to iteratively assess and correct previous
generations. To facilitate reflection-level scaling, we construct GenRef, a
large-scale dataset comprising 1 million triplets, each containing a
reflection, a flawed image, and an enhanced image. Leveraging this dataset, we
efficiently perform reflection tuning on state-of-the-art diffusion
transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified
framework. Experimental results show that ReflectionFlow significantly
outperforms naive noise-level scaling methods, offering a scalable and
compute-efficient solution toward higher-quality image synthesis on challenging
tasks.Summary
AI-Generated Summary