FiT: Trasformatore Visivo Flessibile per Modelli di Diffusione
FiT: Flexible Vision Transformer for Diffusion Model
February 19, 2024
Autori: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI
Abstract
La natura è intrinsecamente priva di limiti di risoluzione. In questo contesto, i modelli di diffusione esistenti, come i Diffusion Transformers, spesso incontrano difficoltà nel processare risoluzioni di immagini al di fuori del loro dominio di addestramento. Per superare questa limitazione, presentiamo il Flexible Vision Transformer (FiT), un'architettura transformer progettata specificamente per generare immagini con risoluzioni e rapporti d'aspetto illimitati. A differenza dei metodi tradizionali che percepiscono le immagini come griglie a risoluzione statica, FiT concettualizza le immagini come sequenze di token di dimensioni dinamiche. Questa prospettiva consente una strategia di addestramento flessibile che si adatta senza sforzo a diversi rapporti d'aspetto sia durante la fase di addestramento che di inferenza, promuovendo così la generalizzazione della risoluzione ed eliminando i bias indotti dal ritaglio delle immagini. Potenziato da una struttura di rete meticolosamente regolata e dall'integrazione di tecniche di estrapolazione senza addestramento, FiT dimostra una notevole flessibilità nella generazione di estrapolazioni di risoluzione. Esperimenti completi dimostrano le prestazioni eccezionali di FiT su un'ampia gamma di risoluzioni, evidenziandone l'efficacia sia all'interno che al di fuori della distribuzione di risoluzione di addestramento. Repository disponibile all'indirizzo https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality,
existing diffusion models, such as Diffusion Transformers, often face
challenges when processing image resolutions outside of their trained domain.
To overcome this limitation, we present the Flexible Vision Transformer (FiT),
a transformer architecture specifically designed for generating images with
unrestricted resolutions and aspect ratios. Unlike traditional methods that
perceive images as static-resolution grids, FiT conceptualizes images as
sequences of dynamically-sized tokens. This perspective enables a flexible
training strategy that effortlessly adapts to diverse aspect ratios during both
training and inference phases, thus promoting resolution generalization and
eliminating biases induced by image cropping. Enhanced by a meticulously
adjusted network structure and the integration of training-free extrapolation
techniques, FiT exhibits remarkable flexibility in resolution extrapolation
generation. Comprehensive experiments demonstrate the exceptional performance
of FiT across a broad range of resolutions, showcasing its effectiveness both
within and beyond its training resolution distribution. Repository available at
https://github.com/whlzy/FiT.