HiFlow: Generación de imágenes de alta resolución sin entrenamiento con guía alineada por flujo

Resumen

Los modelos de difusión/flujo de texto a imagen (T2I) han atraído considerable atención recientemente debido a su notable capacidad para generar creaciones visuales flexibles. Sin embargo, la síntesis de imágenes de alta resolución presenta desafíos formidables debido a la escasez y complejidad del contenido de alta resolución. Con este fin, presentamos HiFlow, un marco agnóstico y sin necesidad de entrenamiento para desbloquear el potencial de resolución de modelos de flujo preentrenados. Específicamente, HiFlow establece un flujo de referencia virtual dentro del espacio de alta resolución que captura efectivamente las características de la información de flujo de baja resolución, ofreciendo orientación para la generación de alta resolución a través de tres aspectos clave: alineación de inicialización para la consistencia de baja frecuencia, alineación de dirección para la preservación de la estructura y alineación de aceleración para la fidelidad de los detalles. Al aprovechar esta guía alineada con el flujo, HiFlow eleva sustancialmente la calidad de la síntesis de imágenes de alta resolución de los modelos T2I y demuestra versatilidad en sus variantes personalizadas. Experimentos extensos validan la superioridad de HiFlow en la obtención de una calidad de imagen de alta resolución superior a los métodos actuales más avanzados.

English

Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow's superiority in achieving superior high-resolution image quality over current state-of-the-art methods.

HiFlow: Generación de imágenes de alta resolución sin entrenamiento con guía alineada por flujo

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

Resumen

Support