FreeScale: Разблокирование разрешения моделей диффузии через слияние масштабов без настройки.
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
December 12, 2024
Авторы: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI
Аннотация
Визуальные модели диффузии достигают значительного прогресса, однако обычно обучаются на ограниченных разрешениях из-за отсутствия данных высокого разрешения и ограниченных вычислительных ресурсов, что снижает их способность генерировать изображения или видео высокого качества на более высоких разрешениях. Недавние усилия исследовали стратегии без настройки для проявления неиспользованного потенциала генерации изображений высокого разрешения предварительно обученными моделями. Однако эти методы все еще склонны к созданию визуального контента низкого качества с повторяющимися узорами. Основная проблема заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение обучения, что приводит к нежелательным повторяющимся узорам, происходящим от накопленных ошибок. Для решения этой проблемы мы предлагаем FreeScale, парадигму вывода без настройки для обеспечения генерации визуального контента высокого разрешения через слияние масштабов. Конкретно, FreeScale обрабатывает информацию с различных рецептивных масштабов, а затем объединяет ее, извлекая желаемые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента высокого разрешения как для моделей изображений, так и для видео. Значительно, по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. To tackle this challenge, we propose FreeScale, a
tuning-free inference paradigm to enable higher-resolution visual generation
via scale fusion. Specifically, FreeScale processes information from different
receptive scales and then fuses it by extracting desired frequency components.
Extensive experiments validate the superiority of our paradigm in extending the
capabilities of higher-resolution visual generation for both image and video
models. Notably, compared with the previous best-performing method, FreeScale
unlocks the generation of 8k-resolution images for the first time.Summary
AI-Generated Summary