De la reflexión a la perfección: Escalando la optimización en tiempo de inferencia para modelos de difusión de texto a imagen mediante ajuste por reflexión
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning
April 22, 2025
Autores: Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
cs.AI
Resumen
Los recientes modelos de difusión de texto a imagen logran una calidad visual impresionante mediante la amplia escalabilidad de los datos de entrenamiento y los parámetros del modelo, aunque a menudo tienen dificultades con escenas complejas y detalles finos. Inspirados por las capacidades de autorreflexión emergentes en los grandes modelos de lenguaje, proponemos ReflectionFlow, un marco de inferencia que permite a los modelos de difusión reflexionar y refinar sus salidas de manera iterativa. ReflectionFlow introduce tres ejes de escalabilidad complementarios durante la inferencia: (1) escalabilidad a nivel de ruido para optimizar la inicialización latente; (2) escalabilidad a nivel de prompt para una guía semántica precisa; y, más notablemente, (3) escalabilidad a nivel de reflexión, que proporciona explícitamente reflexiones accionables para evaluar y corregir iterativamente generaciones previas. Para facilitar la escalabilidad a nivel de reflexión, construimos GenRef, un conjunto de datos a gran escala que comprende 1 millón de tripletas, cada una con una reflexión, una imagen defectuosa y una imagen mejorada. Aprovechando este conjunto de datos, realizamos de manera eficiente un ajuste de reflexión en el transformador de difusión de última generación, FLUX.1-dev, modelando conjuntamente entradas multimodales dentro de un marco unificado. Los resultados experimentales muestran que ReflectionFlow supera significativamente los métodos de escalabilidad a nivel de ruido simples, ofreciendo una solución escalable y eficiente en términos de computación para la síntesis de imágenes de mayor calidad en tareas desafiantes.
English
Recent text-to-image diffusion models achieve impressive visual quality
through extensive scaling of training data and model parameters, yet they often
struggle with complex scenes and fine-grained details. Inspired by the
self-reflection capabilities emergent in large language models, we propose
ReflectionFlow, an inference-time framework enabling diffusion models to
iteratively reflect upon and refine their outputs. ReflectionFlow introduces
three complementary inference-time scaling axes: (1) noise-level scaling to
optimize latent initialization; (2) prompt-level scaling for precise semantic
guidance; and most notably, (3) reflection-level scaling, which explicitly
provides actionable reflections to iteratively assess and correct previous
generations. To facilitate reflection-level scaling, we construct GenRef, a
large-scale dataset comprising 1 million triplets, each containing a
reflection, a flawed image, and an enhanced image. Leveraging this dataset, we
efficiently perform reflection tuning on state-of-the-art diffusion
transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified
framework. Experimental results show that ReflectionFlow significantly
outperforms naive noise-level scaling methods, offering a scalable and
compute-efficient solution toward higher-quality image synthesis on challenging
tasks.Summary
AI-Generated Summary