ChatPaper.aiChatPaper

Aliviando la distorsión en la generación de imágenes mediante modelos de difusión multi-resolución

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

June 13, 2024
Autores: Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Resumen

Este artículo presenta mejoras innovadoras a los modelos de difusión mediante la integración de una red multi-resolución novedosa y una normalización de capas dependiente del tiempo. Los modelos de difusión han ganado prominencia por su eficacia en la generación de imágenes de alta fidelidad. Mientras que los enfoques convencionales se basan en arquitecturas U-Net convolucionales, los diseños recientes basados en Transformers han demostrado un rendimiento y escalabilidad superiores. Sin embargo, las arquitecturas Transformer, que tokenizan los datos de entrada (mediante "patchificación"), enfrentan un equilibrio entre la fidelidad visual y la complejidad computacional debido a la naturaleza cuadrática de las operaciones de auto-atención en relación con la longitud de los tokens. Aunque los tamaños de parche más grandes permiten una eficiencia en el cálculo de la atención, tienen dificultades para capturar detalles visuales finos, lo que lleva a distorsiones en las imágenes. Para abordar este desafío, proponemos aumentar el modelo de Difusión con la red Multi-Resolución (DiMR), un marco que refina características a través de múltiples resoluciones, mejorando progresivamente los detalles de baja a alta resolución. Además, introducimos la Normalización de Capas Dependiente del Tiempo (TD-LN), un enfoque eficiente en parámetros que incorpora parámetros dependientes del tiempo en la normalización de capas para inyectar información temporal y lograr un rendimiento superior. La eficacia de nuestro método se demuestra en el benchmark de generación condicionada por clase de ImageNet, donde las variantes DiMR-XL superan a los modelos de difusión anteriores, estableciendo nuevos récords de puntuaciones FID de 1.70 en ImageNet 256 x 256 y 2.89 en ImageNet 512 x 512. Página del proyecto: https://qihao067.github.io/projects/DiMR
English
This paper presents innovative enhancements to diffusion models by integrating a novel multi-resolution network and time-dependent layer normalization. Diffusion models have gained prominence for their effectiveness in high-fidelity image generation. While conventional approaches rely on convolutional U-Net architectures, recent Transformer-based designs have demonstrated superior performance and scalability. However, Transformer architectures, which tokenize input data (via "patchification"), face a trade-off between visual fidelity and computational complexity due to the quadratic nature of self-attention operations concerning token length. While larger patch sizes enable attention computation efficiency, they struggle to capture fine-grained visual details, leading to image distortions. To address this challenge, we propose augmenting the Diffusion model with the Multi-Resolution network (DiMR), a framework that refines features across multiple resolutions, progressively enhancing detail from low to high resolution. Additionally, we introduce Time-Dependent Layer Normalization (TD-LN), a parameter-efficient approach that incorporates time-dependent parameters into layer normalization to inject time information and achieve superior performance. Our method's efficacy is demonstrated on the class-conditional ImageNet generation benchmark, where DiMR-XL variants outperform prior diffusion models, setting new state-of-the-art FID scores of 1.70 on ImageNet 256 x 256 and 2.89 on ImageNet 512 x 512. Project page: https://qihao067.github.io/projects/DiMR
PDF301December 6, 2024