Dalla Riflessione alla Perfezione: Scalabilità dell'Ottimizzazione al Momento dell'Inferenza per Modelli di Diffusione da Testo a Immagine tramite Reflection Tuning

Abstract

I recenti modelli di diffusione testo-immagine raggiungono una qualità visiva impressionante grazie a un'estesa scalabilità dei dati di addestramento e dei parametri del modello, ma spesso incontrano difficoltà con scene complesse e dettagli fini. Ispirati dalle capacità di autoriflessione emerse nei grandi modelli linguistici, proponiamo ReflectionFlow, un framework in fase di inferenza che consente ai modelli di diffusione di riflettere e perfezionare iterativamente i propri output. ReflectionFlow introduce tre assi di scalabilità complementari in fase di inferenza: (1) scalabilità a livello di rumore per ottimizzare l'inizializzazione latente; (2) scalabilità a livello di prompt per una guida semantica precisa; e, soprattutto, (3) scalabilità a livello di riflessione, che fornisce esplicitamente riflessioni attuabili per valutare e correggere iterativamente le generazioni precedenti. Per facilitare la scalabilità a livello di riflessione, abbiamo costruito GenRef, un dataset su larga scala composto da 1 milione di triplette, ciascuna contenente una riflessione, un'immagine imperfetta e un'immagine migliorata. Sfruttando questo dataset, eseguiamo in modo efficiente il tuning delle riflessioni sul transformer di diffusione all'avanguardia, FLUX.1-dev, modellando congiuntamente input multimodali all'interno di un framework unificato. I risultati sperimentali dimostrano che ReflectionFlow supera significativamente i metodi di scalabilità a livello di rumore più semplici, offrendo una soluzione scalabile e computazionalmente efficiente per una sintesi di immagini di qualità superiore in compiti impegnativi.

English

Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

Dalla Riflessione alla Perfezione: Scalabilità dell'Ottimizzazione al Momento dell'Inferenza per Modelli di Diffusione da Testo a Immagine tramite Reflection Tuning

From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Abstract

Support