Patch n' Pack: NaViT, un Transformer de Visión para cualquier Relación de Aspecto y Resolución
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution
July 12, 2023
Autores: Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey Gritsenko, Mario Lučić, Neil Houlsby
cs.AI
Resumen
La elección omnipresente y demostrablemente subóptima de redimensionar las imágenes a una resolución fija antes de procesarlas con modelos de visión por computadora aún no ha sido desafiada con éxito. Sin embargo, modelos como el Vision Transformer (ViT) ofrecen un modelado basado en secuencias flexible y, por lo tanto, longitudes de secuencia de entrada variables. Aprovechamos esto con NaViT (Native Resolution ViT), que utiliza el empaquetado de secuencias durante el entrenamiento para procesar entradas con resoluciones y relaciones de aspecto arbitrarias. Junto con un uso flexible del modelo, demostramos una mayor eficiencia en el entrenamiento para el preentrenamiento supervisado y contrastivo a gran escala de imágenes y texto. NaViT puede transferirse eficientemente a tareas estándar como la clasificación de imágenes y videos, la detección de objetos y la segmentación semántica, y conduce a mejores resultados en puntos de referencia de robustez y equidad. En el momento de la inferencia, la flexibilidad en la resolución de entrada puede utilizarse para navegar suavemente en la compensación entre costo y rendimiento en tiempo de prueba. Creemos que NaViT marca un alejamiento del estándar, diseñado para CNN, en la canalización de entrada y modelado utilizada por la mayoría de los modelos de visión por computadora, y representa una dirección prometedora para los ViTs.
English
The ubiquitous and demonstrably suboptimal choice of resizing images to a
fixed resolution before processing them with computer vision models has not yet
been successfully challenged. However, models such as the Vision Transformer
(ViT) offer flexible sequence-based modeling, and hence varying input sequence
lengths. We take advantage of this with NaViT (Native Resolution ViT) which
uses sequence packing during training to process inputs of arbitrary
resolutions and aspect ratios. Alongside flexible model usage, we demonstrate
improved training efficiency for large-scale supervised and contrastive
image-text pretraining. NaViT can be efficiently transferred to standard tasks
such as image and video classification, object detection, and semantic
segmentation and leads to improved results on robustness and fairness
benchmarks. At inference time, the input resolution flexibility can be used to
smoothly navigate the test-time cost-performance trade-off. We believe that
NaViT marks a departure from the standard, CNN-designed, input and modelling
pipeline used by most computer vision models, and represents a promising
direction for ViTs.