ChatPaper.aiChatPaper

I-Max: Massimizzare il Potenziale di Risoluzione dei Trasformatori di Flusso Raddrizzati Pre-addestrati con Flusso Proiettato

I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

October 10, 2024
Autori: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao
cs.AI

Abstract

I Trasformatori di Flusso Raddrizzati (RFT) offrono un'efficienza superiore nella formazione e nell'inferenza, rendendoli probabilmente la direzione più valida per scalare i modelli di diffusione. Tuttavia, il progresso nella risoluzione di generazione è stato relativamente lento a causa della qualità dei dati e dei costi di formazione. L'estrapolazione della risoluzione senza sintonizzazione presenta un'alternativa, ma i metodi attuali spesso riducono la stabilità generativa, limitando l'applicazione pratica. In questo articolo, esaminiamo i metodi esistenti di estrapolazione della risoluzione e presentiamo il framework I-Max per massimizzare il potenziale di risoluzione dei Trasformatori di Flusso Testo-Immagine. I-Max presenta: (i) una nuova strategia di Flusso Proiettato per un'estrapolazione stabile e (ii) un toolkit avanzato di inferenza per generalizzare la conoscenza del modello a risoluzioni più elevate. Gli esperimenti con Lumina-Next-2K e Flux.1-dev dimostrano la capacità di I-Max di migliorare la stabilità nell'estrapolazione della risoluzione e mostrano che può portare all'emergere dei dettagli delle immagini e alla correzione degli artefatti, confermando il valore pratico dell'estrapolazione della risoluzione senza sintonizzazione.
English
Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation.
PDF52November 16, 2024