HiFlow: Бестренировочная генерация изображений высокого разрешения с использованием потокового выравнивания
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance
April 8, 2025
Авторы: Jiazi Bu, Pengyang Ling, Yujie Zhou, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Модели диффузии/потока для преобразования текста в изображение (T2I) привлекли значительное внимание в последнее время благодаря своей впечатляющей способности создавать гибкие визуальные композиции. Однако синтез изображений высокого разрешения остается сложной задачей из-за ограниченности и сложности контента высокого разрешения. В связи с этим мы представляем HiFlow — универсальную и не требующую обучения платформу, которая раскрывает потенциал предварительно обученных моделей потока для работы с высоким разрешением. В частности, HiFlow создает виртуальный эталонный поток в пространстве высокого разрешения, который эффективно захватывает характеристики информации потока низкого разрешения, предоставляя руководство для генерации высокого разрешения через три ключевых аспекта: выравнивание инициализации для согласованности низкочастотных компонентов, выравнивание направления для сохранения структуры и выравнивание ускорения для точности деталей. Используя это руководство, основанное на выравнивании потока, HiFlow значительно повышает качество синтеза изображений высокого разрешения в моделях T2I и демонстрирует универсальность в их персонализированных вариантах. Многочисленные эксперименты подтверждают превосходство HiFlow в достижении высококачественных изображений по сравнению с современными методами.
English
Text-to-image (T2I) diffusion/flow models have drawn considerable attention
recently due to their remarkable ability to deliver flexible visual creations.
Still, high-resolution image synthesis presents formidable challenges due to
the scarcity and complexity of high-resolution content. To this end, we present
HiFlow, a training-free and model-agnostic framework to unlock the resolution
potential of pre-trained flow models. Specifically, HiFlow establishes a
virtual reference flow within the high-resolution space that effectively
captures the characteristics of low-resolution flow information, offering
guidance for high-resolution generation through three key aspects:
initialization alignment for low-frequency consistency, direction alignment for
structure preservation, and acceleration alignment for detail fidelity. By
leveraging this flow-aligned guidance, HiFlow substantially elevates the
quality of high-resolution image synthesis of T2I models and demonstrates
versatility across their personalized variants. Extensive experiments validate
HiFlow's superiority in achieving superior high-resolution image quality over
current state-of-the-art methods.Summary
AI-Generated Summary