HiFlow: Geração de Imagens de Alta Resolução sem Treinamento com Orientação Alinhada por Fluxo

Resumo

Modelos de difusão/fluxo texto-para-imagem (T2I) têm atraído considerável atenção recentemente devido à sua notável capacidade de entregar criações visuais flexíveis. No entanto, a síntese de imagens de alta resolução apresenta desafios formidáveis devido à escassez e complexidade do conteúdo de alta resolução. Para isso, apresentamos o HiFlow, uma estrutura livre de treinamento e agnóstica a modelos, que desbloqueia o potencial de resolução de modelos de fluxo pré-treinados. Especificamente, o HiFlow estabelece um fluxo de referência virtual no espaço de alta resolução que efetivamente captura as características das informações de fluxo de baixa resolução, oferecendo orientação para a geração de alta resolução por meio de três aspectos principais: alinhamento de inicialização para consistência de baixa frequência, alinhamento de direção para preservação de estrutura e alinhamento de aceleração para fidelidade de detalhes. Ao aproveitar essa orientação alinhada ao fluxo, o HiFlow eleva substancialmente a qualidade da síntese de imagens de alta resolução dos modelos T2I e demonstra versatilidade em suas variantes personalizadas. Experimentos extensivos validam a superioridade do HiFlow em alcançar qualidade de imagem de alta resolução superior aos métodos atuais de ponta.

English

Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow's superiority in achieving superior high-resolution image quality over current state-of-the-art methods.

HiFlow: Geração de Imagens de Alta Resolução sem Treinamento com Orientação Alinhada por Fluxo

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

Resumo

Summary

Support

Support