HiFlow: Geração de Imagens de Alta Resolução sem Treinamento com Orientação Alinhada por Fluxo
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
April 8, 2025
Autores: Jiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
Modelos de difusão/fluxo texto-para-imagem (T2I) têm atraído considerável atenção recentemente devido à sua notável capacidade de entregar criações visuais flexíveis. No entanto, a síntese de imagens de alta resolução apresenta desafios formidáveis devido à escassez e complexidade do conteúdo de alta resolução. Para isso, apresentamos o HiFlow, uma estrutura livre de treinamento e agnóstica a modelos, que desbloqueia o potencial de resolução de modelos de fluxo pré-treinados. Especificamente, o HiFlow estabelece um fluxo de referência virtual no espaço de alta resolução que efetivamente captura as características das informações de fluxo de baixa resolução, oferecendo orientação para a geração de alta resolução por meio de três aspectos principais: alinhamento de inicialização para consistência de baixa frequência, alinhamento de direção para preservação de estrutura e alinhamento de aceleração para fidelidade de detalhes. Ao aproveitar essa orientação alinhada ao fluxo, o HiFlow eleva substancialmente a qualidade da síntese de imagens de alta resolução dos modelos T2I e demonstra versatilidade em suas variantes personalizadas. Experimentos extensivos validam a superioridade do HiFlow em alcançar qualidade de imagem de alta resolução superior aos métodos atuais de ponta.
English
Text-to-image (T2I) diffusion/flow models have drawn considerable attention
recently due to their remarkable ability to deliver flexible visual creations.
Still, high-resolution image synthesis presents formidable challenges due to
the scarcity and complexity of high-resolution content. To this end, we present
HiFlow, a training-free and model-agnostic framework to unlock the resolution
potential of pre-trained flow models. Specifically, HiFlow establishes a
virtual reference flow within the high-resolution space that effectively
captures the characteristics of low-resolution flow information, offering
guidance for high-resolution generation through three key aspects:
initialization alignment for low-frequency consistency, direction alignment for
structure preservation, and acceleration alignment for detail fidelity. By
leveraging this flow-aligned guidance, HiFlow substantially elevates the
quality of high-resolution image synthesis of T2I models and demonstrates
versatility across their personalized variants. Extensive experiments validate
HiFlow's superiority in achieving superior high-resolution image quality over
current state-of-the-art methods.Summary
AI-Generated Summary