FiT: Flexibler Vision-Transformer für Diffusionsmodelle
FiT: Flexible Vision Transformer for Diffusion Model
February 19, 2024
Autoren: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI
Zusammenfassung
Die Natur ist unendlich auflösungsfrei. Vor diesem Hintergrund stehen bestehende Diffusionsmodelle, wie beispielsweise Diffusion Transformers, oft vor Herausforderungen, wenn sie Bildauflösungen außerhalb ihres trainierten Bereichs verarbeiten sollen. Um diese Einschränkung zu überwinden, präsentieren wir den Flexible Vision Transformer (FiT), eine Transformer-Architektur, die speziell für die Erzeugung von Bildern mit uneingeschränkten Auflösungen und Seitenverhältnissen entwickelt wurde. Im Gegensatz zu traditionellen Methoden, die Bilder als statische Auflösungsraster betrachten, konzipiert FiT Bilder als Sequenzen dynamisch großer Tokens. Diese Perspektive ermöglicht eine flexible Trainingsstrategie, die sich mühelos an verschiedene Seitenverhältnisse sowohl während des Trainings als auch der Inferenz anpasst, wodurch die Auflösungsgeneralisierung gefördert und durch Bildbeschnitt induzierte Verzerrungen beseitigt werden. Durch eine sorgfältig angepasste Netzwerkstruktur und die Integration von trainingsfreien Extrapolationstechniken zeigt FiT eine bemerkenswerte Flexibilität bei der Auflösungsextrapolationsgenerierung. Umfassende Experimente demonstrieren die außergewöhnliche Leistung von FiT über ein breites Spektrum von Auflösungen hinweg und zeigen seine Wirksamkeit sowohl innerhalb als auch außerhalb seiner Trainingsauflösungsverteilung. Das Repository ist verfügbar unter https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality,
existing diffusion models, such as Diffusion Transformers, often face
challenges when processing image resolutions outside of their trained domain.
To overcome this limitation, we present the Flexible Vision Transformer (FiT),
a transformer architecture specifically designed for generating images with
unrestricted resolutions and aspect ratios. Unlike traditional methods that
perceive images as static-resolution grids, FiT conceptualizes images as
sequences of dynamically-sized tokens. This perspective enables a flexible
training strategy that effortlessly adapts to diverse aspect ratios during both
training and inference phases, thus promoting resolution generalization and
eliminating biases induced by image cropping. Enhanced by a meticulously
adjusted network structure and the integration of training-free extrapolation
techniques, FiT exhibits remarkable flexibility in resolution extrapolation
generation. Comprehensive experiments demonstrate the exceptional performance
of FiT across a broad range of resolutions, showcasing its effectiveness both
within and beyond its training resolution distribution. Repository available at
https://github.com/whlzy/FiT.Summary
AI-Generated Summary