Patch n' Pack: NaViT, un Vision Transformer per qualsiasi rapporto d'aspetto e risoluzione
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
July 12, 2023
Autori: Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby
cs.AI
Abstract
La scelta onnipresente e dimostrativamente subottimale di ridimensionare le immagini a una risoluzione fissa prima di elaborarle con modelli di computer vision non è stata ancora sfidata con successo. Tuttavia, modelli come il Vision Transformer (ViT) offrono una modellazione flessibile basata su sequenze, e quindi lunghezze variabili delle sequenze di input. Sfruttiamo questa caratteristica con NaViT (Native Resolution ViT), che utilizza il packing di sequenze durante l'addestramento per elaborare input con risoluzioni e rapporti d'aspetto arbitrari. Oltre a un utilizzo flessibile del modello, dimostriamo un miglioramento dell'efficienza nell'addestramento su larga scala sia per il pre-addestramento supervisionato che per quello contrastivo su coppie immagine-testo. NaViT può essere trasferito in modo efficiente a task standard come la classificazione di immagini e video, il rilevamento di oggetti e la segmentazione semantica, portando a risultati migliorati su benchmark di robustezza e fairness. Al momento dell'inferenza, la flessibilità nella risoluzione dell'input può essere utilizzata per navigare agevolmente il compromesso costo-prestazioni in fase di test. Crediamo che NaViT segni un allontanamento dalla pipeline standard di input e modellazione progettata per le CNN, utilizzata dalla maggior parte dei modelli di computer vision, e rappresenti una direzione promettente per i ViT.
English
The ubiquitous and demonstrably suboptimal choice of resizing images to a
fixed resolution before processing them with computer vision models has not yet
been successfully challenged. However, models such as the Vision Transformer
(ViT) offer flexible sequence-based modeling, and hence varying input sequence
lengths. We take advantage of this with NaViT (Native Resolution ViT) which
uses sequence packing during training to process inputs of arbitrary
resolutions and aspect ratios. Alongside flexible model usage, we demonstrate
improved training efficiency for large-scale supervised and contrastive
image-text pretraining. NaViT can be efficiently transferred to standard tasks
such as image and video classification, object detection, and semantic
segmentation and leads to improved results on robustness and fairness
benchmarks. At inference time, the input resolution flexibility can be used to
smoothly navigate the test-time cost-performance trade-off. We believe that
NaViT marks a departure from the standard, CNN-designed, input and modelling
pipeline used by most computer vision models, and represents a promising
direction for ViTs.