I-Max: Massimizzare il Potenziale di Risoluzione dei Trasformatori di Flusso Raddrizzati Pre-addestrati con Flusso Proiettato
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow
October 10, 2024
Autori: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao
cs.AI
Abstract
I Trasformatori di Flusso Raddrizzati (RFT) offrono un'efficienza superiore nella formazione e nell'inferenza, rendendoli probabilmente la direzione più valida per scalare i modelli di diffusione. Tuttavia, il progresso nella risoluzione di generazione è stato relativamente lento a causa della qualità dei dati e dei costi di formazione. L'estrapolazione della risoluzione senza sintonizzazione presenta un'alternativa, ma i metodi attuali spesso riducono la stabilità generativa, limitando l'applicazione pratica. In questo articolo, esaminiamo i metodi esistenti di estrapolazione della risoluzione e presentiamo il framework I-Max per massimizzare il potenziale di risoluzione dei Trasformatori di Flusso Testo-Immagine. I-Max presenta: (i) una nuova strategia di Flusso Proiettato per un'estrapolazione stabile e (ii) un toolkit avanzato di inferenza per generalizzare la conoscenza del modello a risoluzioni più elevate. Gli esperimenti con Lumina-Next-2K e Flux.1-dev dimostrano la capacità di I-Max di migliorare la stabilità nell'estrapolazione della risoluzione e mostrano che può portare all'emergere dei dettagli delle immagini e alla correzione degli artefatti, confermando il valore pratico dell'estrapolazione della risoluzione senza sintonizzazione.
English
Rectified Flow Transformers (RFTs) offer superior training and inference
efficiency, making them likely the most viable direction for scaling up
diffusion models. However, progress in generation resolution has been
relatively slow due to data quality and training costs. Tuning-free resolution
extrapolation presents an alternative, but current methods often reduce
generative stability, limiting practical application. In this paper, we review
existing resolution extrapolation methods and introduce the I-Max framework to
maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a
novel Projected Flow strategy for stable extrapolation and (ii) an advanced
inference toolkit for generalizing model knowledge to higher resolutions.
Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to
enhance stability in resolution extrapolation and show that it can bring image
detail emergence and artifact correction, confirming the practical value of
tuning-free resolution extrapolation.