FreeScale: Liberando la resolución de modelos de difusión a través de la Fusión de Escala sin Ajuste.
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
December 12, 2024
Autores: Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
cs.AI
Resumen
Los modelos de difusión visual logran un progreso notable, sin embargo, suelen entrenarse a resoluciones limitadas debido a la falta de datos de alta resolución y recursos computacionales limitados, lo que dificulta su capacidad para generar imágenes o videos de alta fidelidad a resoluciones más altas. Esfuerzos recientes han explorado estrategias sin ajuste para mostrar el potencial no explotado de la generación visual de alta resolución de modelos pre-entrenados. Sin embargo, estos métodos aún tienden a producir contenido visual de baja calidad con patrones repetitivos. El principal obstáculo radica en el aumento inevitable de información de alta frecuencia cuando el modelo genera contenido visual que excede su resolución de entrenamiento, lo que conlleva a patrones repetitivos no deseados derivados de los errores acumulados. Para abordar este desafío, proponemos FreeScale, un paradigma de inferencia sin ajuste para permitir la generación visual de alta resolución a través de la fusión de escalas. Específicamente, FreeScale procesa información de diferentes escalas receptivas y luego la fusiona extrayendo componentes de frecuencia deseados. Experimentos extensos validan la superioridad de nuestro paradigma en la ampliación de las capacidades de generación visual de alta resolución tanto para modelos de imágenes como de videos. Notablemente, en comparación con el método anterior de mejor rendimiento, FreeScale desbloquea la generación de imágenes de resolución 8k por primera vez.
English
Visual diffusion models achieve remarkable progress, yet they are typically
trained at limited resolutions due to the lack of high-resolution data and
constrained computation resources, hampering their ability to generate
high-fidelity images or videos at higher resolutions. Recent efforts have
explored tuning-free strategies to exhibit the untapped potential
higher-resolution visual generation of pre-trained models. However, these
methods are still prone to producing low-quality visual content with repetitive
patterns. The key obstacle lies in the inevitable increase in high-frequency
information when the model generates visual content exceeding its training
resolution, leading to undesirable repetitive patterns deriving from the
accumulated errors. To tackle this challenge, we propose FreeScale, a
tuning-free inference paradigm to enable higher-resolution visual generation
via scale fusion. Specifically, FreeScale processes information from different
receptive scales and then fuses it by extracting desired frequency components.
Extensive experiments validate the superiority of our paradigm in extending the
capabilities of higher-resolution visual generation for both image and video
models. Notably, compared with the previous best-performing method, FreeScale
unlocks the generation of 8k-resolution images for the first time.Summary
AI-Generated Summary