Patch n' Pack: NaViT, un Vision Transformer per qualsiasi rapporto d'aspetto e risoluzione

Abstract

La scelta onnipresente e dimostrativamente subottimale di ridimensionare le immagini a una risoluzione fissa prima di elaborarle con modelli di computer vision non è stata ancora sfidata con successo. Tuttavia, modelli come il Vision Transformer (ViT) offrono una modellazione flessibile basata su sequenze, e quindi lunghezze variabili delle sequenze di input. Sfruttiamo questa caratteristica con NaViT (Native Resolution ViT), che utilizza il packing di sequenze durante l'addestramento per elaborare input con risoluzioni e rapporti d'aspetto arbitrari. Oltre a un utilizzo flessibile del modello, dimostriamo un miglioramento dell'efficienza nell'addestramento su larga scala sia per il pre-addestramento supervisionato che per quello contrastivo su coppie immagine-testo. NaViT può essere trasferito in modo efficiente a task standard come la classificazione di immagini e video, il rilevamento di oggetti e la segmentazione semantica, portando a risultati migliorati su benchmark di robustezza e fairness. Al momento dell'inferenza, la flessibilità nella risoluzione dell'input può essere utilizzata per navigare agevolmente il compromesso costo-prestazioni in fase di test. Crediamo che NaViT segni un allontanamento dalla pipeline standard di input e modellazione progettata per le CNN, utilizzata dalla maggior parte dei modelli di computer vision, e rappresenti una direzione promettente per i ViT.

English

The ubiquitous and demonstrably suboptimal choice of resizing images to a fixed resolution before processing them with computer vision models has not yet been successfully challenged. However, models such as the Vision Transformer (ViT) offer flexible sequence-based modeling, and hence varying input sequence lengths. We take advantage of this with NaViT (Native Resolution ViT) which uses sequence packing during training to process inputs of arbitrary resolutions and aspect ratios. Alongside flexible model usage, we demonstrate improved training efficiency for large-scale supervised and contrastive image-text pretraining. NaViT can be efficiently transferred to standard tasks such as image and video classification, object detection, and semantic segmentation and leads to improved results on robustness and fairness benchmarks. At inference time, the input resolution flexibility can be used to smoothly navigate the test-time cost-performance trade-off. We believe that NaViT marks a departure from the standard, CNN-designed, input and modelling pipeline used by most computer vision models, and represents a promising direction for ViTs.

Patch n' Pack: NaViT, un Vision Transformer per qualsiasi rapporto d'aspetto e risoluzione

Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

Abstract

Support