FiT: Гибкий Vision Transformer для диффузионной модели
FiT: Flexible Vision Transformer for Diffusion Model
February 19, 2024
Авторы: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
cs.AI
Аннотация
Природа бесконечно свободна от ограничений по разрешению. В контексте этой реальности существующие диффузионные модели, такие как Diffusion Transformers, часто сталкиваются с трудностями при обработке изображений с разрешениями, выходящими за пределы их обучаемой области. Чтобы преодолеть это ограничение, мы представляем Flexible Vision Transformer (FiT) — архитектуру трансформера, специально разработанную для генерации изображений с неограниченными разрешениями и соотношениями сторон. В отличие от традиционных методов, которые воспринимают изображения как статичные сетки фиксированного разрешения, FiT концептуализирует изображения как последовательности динамически изменяемых токенов. Такой подход позволяет реализовать гибкую стратегию обучения, которая легко адаптируется к различным соотношениям сторон как на этапе обучения, так и на этапе вывода, способствуя обобщению по разрешению и устраняя искажения, вызванные обрезкой изображений. Благодаря тщательно настроенной структуре сети и интеграции методов экстраполяции, не требующих дополнительного обучения, FiT демонстрирует выдающуюся гибкость в генерации экстраполяции разрешений. Комплексные эксперименты подтверждают исключительную производительность FiT в широком диапазоне разрешений, демонстрируя его эффективность как в пределах, так и за пределами распределения разрешений, использованного при обучении. Репозиторий доступен по адресу https://github.com/whlzy/FiT.
English
Nature is infinitely resolution-free. In the context of this reality,
existing diffusion models, such as Diffusion Transformers, often face
challenges when processing image resolutions outside of their trained domain.
To overcome this limitation, we present the Flexible Vision Transformer (FiT),
a transformer architecture specifically designed for generating images with
unrestricted resolutions and aspect ratios. Unlike traditional methods that
perceive images as static-resolution grids, FiT conceptualizes images as
sequences of dynamically-sized tokens. This perspective enables a flexible
training strategy that effortlessly adapts to diverse aspect ratios during both
training and inference phases, thus promoting resolution generalization and
eliminating biases induced by image cropping. Enhanced by a meticulously
adjusted network structure and the integration of training-free extrapolation
techniques, FiT exhibits remarkable flexibility in resolution extrapolation
generation. Comprehensive experiments demonstrate the exceptional performance
of FiT across a broad range of resolutions, showcasing its effectiveness both
within and beyond its training resolution distribution. Repository available at
https://github.com/whlzy/FiT.