HiFlow: Бестренировочная генерация изображений высокого разрешения с использованием потокового выравнивания

Аннотация

Модели диффузии/потока для преобразования текста в изображение (T2I) привлекли значительное внимание в последнее время благодаря своей впечатляющей способности создавать гибкие визуальные композиции. Однако синтез изображений высокого разрешения остается сложной задачей из-за ограниченности и сложности контента высокого разрешения. В связи с этим мы представляем HiFlow — универсальную и не требующую обучения платформу, которая раскрывает потенциал предварительно обученных моделей потока для работы с высоким разрешением. В частности, HiFlow создает виртуальный эталонный поток в пространстве высокого разрешения, который эффективно захватывает характеристики информации потока низкого разрешения, предоставляя руководство для генерации высокого разрешения через три ключевых аспекта: выравнивание инициализации для согласованности низкочастотных компонентов, выравнивание направления для сохранения структуры и выравнивание ускорения для точности деталей. Используя это руководство, основанное на выравнивании потока, HiFlow значительно повышает качество синтеза изображений высокого разрешения в моделях T2I и демонстрирует универсальность в их персонализированных вариантах. Многочисленные эксперименты подтверждают превосходство HiFlow в достижении высококачественных изображений по сравнению с современными методами.

English

Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow's superiority in achieving superior high-resolution image quality over current state-of-the-art methods.

HiFlow: Бестренировочная генерация изображений высокого разрешения с использованием потокового выравнивания

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

Аннотация

Support