Patch n' Pack: NaViT, Vision Transformer для любого соотношения сторон и разрешения
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
July 12, 2023
Авторы: Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby
cs.AI
Аннотация
Повсеместный и явно неоптимальный выбор изменения размера изображений до фиксированного разрешения перед их обработкой с помощью моделей компьютерного зрения до сих пор не был успешно пересмотрен. Однако такие модели, как Vision Transformer (ViT), предлагают гибкое последовательностное моделирование, что позволяет работать с входными последовательностями переменной длины. Мы используем это преимущество в NaViT (Native Resolution ViT), которая применяет упаковку последовательностей во время обучения для обработки входных данных с произвольным разрешением и соотношением сторон. Наряду с гибкостью использования модели, мы демонстрируем повышение эффективности обучения при крупномасштабном контролируемом и контрастном предобучении на изображениях и тексте. NaViT может быть эффективно адаптирована для стандартных задач, таких как классификация изображений и видео, обнаружение объектов и семантическая сегментация, и приводит к улучшенным результатам на тестах устойчивости и справедливости. Во время вывода гибкость входного разрешения может быть использована для плавного управления компромиссом между стоимостью и производительностью на этапе тестирования. Мы считаем, что NaViT знаменует отход от стандартного конвейера обработки входных данных и моделирования, разработанного для CNN, который используется большинством моделей компьютерного зрения, и представляет собой перспективное направление для ViT.
English
The ubiquitous and demonstrably suboptimal choice of resizing images to a
fixed resolution before processing them with computer vision models has not yet
been successfully challenged. However, models such as the Vision Transformer
(ViT) offer flexible sequence-based modeling, and hence varying input sequence
lengths. We take advantage of this with NaViT (Native Resolution ViT) which
uses sequence packing during training to process inputs of arbitrary
resolutions and aspect ratios. Alongside flexible model usage, we demonstrate
improved training efficiency for large-scale supervised and contrastive
image-text pretraining. NaViT can be efficiently transferred to standard tasks
such as image and video classification, object detection, and semantic
segmentation and leads to improved results on robustness and fairness
benchmarks. At inference time, the input resolution flexibility can be used to
smoothly navigate the test-time cost-performance trade-off. We believe that
NaViT marks a departure from the standard, CNN-designed, input and modelling
pipeline used by most computer vision models, and represents a promising
direction for ViTs.