FiT : Transformateur Vision Flexible pour les Modèles de Diffusion
FiT: Flexible Vision Transformer for Diffusion Model
February 19, 2024
Auteurs: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI
Résumé
La nature est intrinsèquement libre de toute contrainte de résolution. Dans ce contexte, les modèles de diffusion existants, tels que les Transformers de Diffusion, rencontrent souvent des difficultés lorsqu'ils traitent des résolutions d'images en dehors de leur domaine d'entraînement. Pour surmonter cette limitation, nous présentons le Flexible Vision Transformer (FiT), une architecture de transformer spécialement conçue pour générer des images avec des résolutions et des rapports d'aspect non restreints. Contrairement aux méthodes traditionnelles qui perçoivent les images comme des grilles à résolution statique, FiT conceptualise les images comme des séquences de tokens de taille dynamique. Cette perspective permet une stratégie d'entraînement flexible qui s'adapte sans effort à divers rapports d'aspect, tant pendant la phase d'entraînement que d'inférence, favorisant ainsi la généralisation de la résolution et éliminant les biais induits par le recadrage des images. Renforcé par une structure de réseau soigneusement ajustée et l'intégration de techniques d'extrapolation sans entraînement, FiT démontre une flexibilité remarquable dans la génération par extrapolation de résolution. Des expériences approfondies mettent en évidence les performances exceptionnelles de FiT sur une large gamme de résolutions, démontrant son efficacité tant à l'intérieur qu'au-delà de la distribution de résolution de son entraînement. Le dépôt est disponible à l'adresse suivante : https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality,
existing diffusion models, such as Diffusion Transformers, often face
challenges when processing image resolutions outside of their trained domain.
To overcome this limitation, we present the Flexible Vision Transformer (FiT),
a transformer architecture specifically designed for generating images with
unrestricted resolutions and aspect ratios. Unlike traditional methods that
perceive images as static-resolution grids, FiT conceptualizes images as
sequences of dynamically-sized tokens. This perspective enables a flexible
training strategy that effortlessly adapts to diverse aspect ratios during both
training and inference phases, thus promoting resolution generalization and
eliminating biases induced by image cropping. Enhanced by a meticulously
adjusted network structure and the integration of training-free extrapolation
techniques, FiT exhibits remarkable flexibility in resolution extrapolation
generation. Comprehensive experiments demonstrate the exceptional performance
of FiT across a broad range of resolutions, showcasing its effectiveness both
within and beyond its training resolution distribution. Repository available at
https://github.com/whlzy/FiT.Summary
AI-Generated Summary