FiT: Transformador Visual Flexible para Modelos de Difusión
FiT: Flexible Vision Transformer for Diffusion Model
February 19, 2024
Autores: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI
Resumen
La naturaleza está libre de limitaciones de resolución. En este contexto, los modelos de difusión existentes, como los Transformers de Difusión, a menudo enfrentan desafíos al procesar imágenes con resoluciones fuera de su dominio de entrenamiento. Para superar esta limitación, presentamos el Transformer de Visión Flexible (FiT), una arquitectura de transformer diseñada específicamente para generar imágenes con resoluciones y relaciones de aspecto ilimitadas. A diferencia de los métodos tradicionales que perciben las imágenes como cuadrículas de resolución estática, FiT conceptualiza las imágenes como secuencias de tokens de tamaño dinámico. Esta perspectiva permite una estrategia de entrenamiento flexible que se adapta sin esfuerzo a diversas relaciones de aspecto durante las fases de entrenamiento e inferencia, promoviendo así la generalización de resolución y eliminando los sesgos inducidos por el recorte de imágenes. Potenciado por una estructura de red meticulosamente ajustada y la integración de técnicas de extrapolación sin entrenamiento, FiT exhibe una notable flexibilidad en la generación de extrapolación de resolución. Experimentos exhaustivos demuestran el rendimiento excepcional de FiT en un amplio rango de resoluciones, mostrando su efectividad tanto dentro como más allá de su distribución de resolución de entrenamiento. Repositorio disponible en https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality,
existing diffusion models, such as Diffusion Transformers, often face
challenges when processing image resolutions outside of their trained domain.
To overcome this limitation, we present the Flexible Vision Transformer (FiT),
a transformer architecture specifically designed for generating images with
unrestricted resolutions and aspect ratios. Unlike traditional methods that
perceive images as static-resolution grids, FiT conceptualizes images as
sequences of dynamically-sized tokens. This perspective enables a flexible
training strategy that effortlessly adapts to diverse aspect ratios during both
training and inference phases, thus promoting resolution generalization and
eliminating biases induced by image cropping. Enhanced by a meticulously
adjusted network structure and the integration of training-free extrapolation
techniques, FiT exhibits remarkable flexibility in resolution extrapolation
generation. Comprehensive experiments demonstrate the exceptional performance
of FiT across a broad range of resolutions, showcasing its effectiveness both
within and beyond its training resolution distribution. Repository available at
https://github.com/whlzy/FiT.Summary
AI-Generated Summary