HiFlow: Generación de imágenes de alta resolución sin entrenamiento con guía alineada por flujo
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
April 8, 2025
Autores: Jiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
Los modelos de difusión/flujo de texto a imagen (T2I) han atraído considerable atención recientemente debido a su notable capacidad para generar creaciones visuales flexibles. Sin embargo, la síntesis de imágenes de alta resolución presenta desafíos formidables debido a la escasez y complejidad del contenido de alta resolución. Con este fin, presentamos HiFlow, un marco agnóstico y sin necesidad de entrenamiento para desbloquear el potencial de resolución de modelos de flujo preentrenados. Específicamente, HiFlow establece un flujo de referencia virtual dentro del espacio de alta resolución que captura efectivamente las características de la información de flujo de baja resolución, ofreciendo orientación para la generación de alta resolución a través de tres aspectos clave: alineación de inicialización para la consistencia de baja frecuencia, alineación de dirección para la preservación de la estructura y alineación de aceleración para la fidelidad de los detalles. Al aprovechar esta guía alineada con el flujo, HiFlow eleva sustancialmente la calidad de la síntesis de imágenes de alta resolución de los modelos T2I y demuestra versatilidad en sus variantes personalizadas. Experimentos extensos validan la superioridad de HiFlow en la obtención de una calidad de imagen de alta resolución superior a los métodos actuales más avanzados.
English
Text-to-image (T2I) diffusion/flow models have drawn considerable attention
recently due to their remarkable ability to deliver flexible visual creations.
Still, high-resolution image synthesis presents formidable challenges due to
the scarcity and complexity of high-resolution content. To this end, we present
HiFlow, a training-free and model-agnostic framework to unlock the resolution
potential of pre-trained flow models. Specifically, HiFlow establishes a
virtual reference flow within the high-resolution space that effectively
captures the characteristics of low-resolution flow information, offering
guidance for high-resolution generation through three key aspects:
initialization alignment for low-frequency consistency, direction alignment for
structure preservation, and acceleration alignment for detail fidelity. By
leveraging this flow-aligned guidance, HiFlow substantially elevates the
quality of high-resolution image synthesis of T2I models and demonstrates
versatility across their personalized variants. Extensive experiments validate
HiFlow's superiority in achieving superior high-resolution image quality over
current state-of-the-art methods.Summary
AI-Generated Summary