ChatPaper.aiChatPaper

I-Max: Maximizar o Potencial de Resolução dos Transformadores de Fluxo Retificado Pré-treinados com Fluxo Projetado

I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

October 10, 2024
Autores: Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao
cs.AI

Resumo

Os Transformadores de Fluxo Retificado (RFTs) oferecem uma eficiência superior em treinamento e inferência, tornando-os provavelmente a direção mais viável para ampliar modelos de difusão. No entanto, o progresso na resolução de geração tem sido relativamente lento devido à qualidade dos dados e aos custos de treinamento. A extrapolação de resolução sem ajuste apresenta uma alternativa, mas os métodos atuais frequentemente reduzem a estabilidade generativa, limitando a aplicação prática. Neste artigo, revisamos os métodos existentes de extrapolação de resolução e introduzimos o framework I-Max para maximizar o potencial de resolução dos RFTs de Texto-para-Imagem. O I-Max apresenta: (i) uma estratégia de Fluxo Projetado inovadora para extrapolação estável e (ii) um conjunto avançado de ferramentas de inferência para generalizar o conhecimento do modelo para resoluções mais altas. Experimentos com Lumina-Next-2K e Flux.1-dev demonstram a capacidade do I-Max de aprimorar a estabilidade na extrapolação de resolução e mostram que ele pode trazer a emergência de detalhes de imagem e a correção de artefatos, confirmando o valor prático da extrapolação de resolução sem ajuste.
English
Rectified Flow Transformers (RFTs) offer superior training and inference efficiency, making them likely the most viable direction for scaling up diffusion models. However, progress in generation resolution has been relatively slow due to data quality and training costs. Tuning-free resolution extrapolation presents an alternative, but current methods often reduce generative stability, limiting practical application. In this paper, we review existing resolution extrapolation methods and introduce the I-Max framework to maximize the resolution potential of Text-to-Image RFTs. I-Max features: (i) a novel Projected Flow strategy for stable extrapolation and (ii) an advanced inference toolkit for generalizing model knowledge to higher resolutions. Experiments with Lumina-Next-2K and Flux.1-dev demonstrate I-Max's ability to enhance stability in resolution extrapolation and show that it can bring image detail emergence and artifact correction, confirming the practical value of tuning-free resolution extrapolation.

Summary

AI-Generated Summary

PDF52November 16, 2024