FiT: Flexibele Vision Transformer voor Diffusiemodellen
FiT: Flexible Vision Transformer for Diffusion Model
February 19, 2024
Auteurs: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI
Samenvatting
De natuur is oneindig resolutievrij. In de context van deze realiteit
komen bestaande diffusiemodellen, zoals Diffusion Transformers, vaak
uitdagingen tegen bij het verwerken van beeldresoluties buiten hun getrainde domein.
Om deze beperking te overwinnen, presenteren we de Flexible Vision Transformer (FiT),
een transformer-architectuur die specifiek is ontworpen voor het genereren van beelden met
onbeperkte resoluties en aspectverhoudingen. In tegenstelling tot traditionele methoden die
beelden zien als statische-resolutie roosters, conceptualiseert FiT beelden als
reeksen van dynamisch grootte tokens. Dit perspectief maakt een flexibele
trainingsstrategie mogelijk die moeiteloos aanpast aan diverse aspectverhoudingen tijdens zowel
de trainings- als de inferentiefases, waardoor resolutiegeneralizatie wordt bevorderd en
vooroordelen veroorzaakt door beeldbijsnijden worden geëlimineerd. Versterkt door een zorgvuldig
aangepaste netwerkstructuur en de integratie van trainingsvrije extrapolatie
technieken, toont FiT opmerkelijke flexibiliteit in resolutie-extrapolatie
generatie. Uitgebreide experimenten demonstreren de uitzonderlijke prestaties
van FiT over een breed scala aan resoluties, wat de effectiviteit ervan zowel binnen
als buiten zijn trainingsresolutieverdeling aantoont. Repository beschikbaar op
https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality,
existing diffusion models, such as Diffusion Transformers, often face
challenges when processing image resolutions outside of their trained domain.
To overcome this limitation, we present the Flexible Vision Transformer (FiT),
a transformer architecture specifically designed for generating images with
unrestricted resolutions and aspect ratios. Unlike traditional methods that
perceive images as static-resolution grids, FiT conceptualizes images as
sequences of dynamically-sized tokens. This perspective enables a flexible
training strategy that effortlessly adapts to diverse aspect ratios during both
training and inference phases, thus promoting resolution generalization and
eliminating biases induced by image cropping. Enhanced by a meticulously
adjusted network structure and the integration of training-free extrapolation
techniques, FiT exhibits remarkable flexibility in resolution extrapolation
generation. Comprehensive experiments demonstrate the exceptional performance
of FiT across a broad range of resolutions, showcasing its effectiveness both
within and beyond its training resolution distribution. Repository available at
https://github.com/whlzy/FiT.