Het hardwiren van ViT-patchselectiviteit in CNN's met behulp van Patch Mixing
Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing
June 30, 2023
Auteurs: Ariel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate Saenko, Nataniel Ruiz
cs.AI
Samenvatting
Vision transformers (ViTs) hebben het landschap van computervisie aanzienlijk veranderd en hebben periodiek superieure prestaties getoond in visuele taken in vergelijking met convolutionele neurale netwerken (CNN's). Hoewel het nog niet definitief is welk modeltype superieur is, heeft elk unieke inductieve biases die hun leer- en generalisatieprestaties vormgeven. ViTs hebben bijvoorbeeld interessante eigenschappen met betrekking tot niet-lokale kenmerkafhankelijkheid in vroege lagen, evenals self-attention-mechanismen die de leerflexibiliteit vergroten, waardoor ze informatie buiten de context van een beeld effectiever kunnen negeren. We veronderstellen dat dit vermogen om informatie buiten de context te negeren (wat we patchselectiviteit noemen), terwijl informatie binnen de context op een niet-lokale manier in vroege lagen wordt geïntegreerd, ViTs in staat stelt om occlusie gemakkelijker te hanteren. In deze studie is ons doel om te onderzoeken of we CNN's dit vermogen van patchselectiviteit kunnen laten simuleren door deze inductieve bias effectief in te bouwen met behulp van Patch Mixing data-augmentatie, wat bestaat uit het invoegen van patches van een ander beeld in een trainingsbeeld en het interpoleren van labels tussen de twee beeldklassen. Specifiek gebruiken we Patch Mixing om state-of-the-art ViTs en CNN's te trainen, waarbij we de impact ervan beoordelen op hun vermogen om patches buiten de context te negeren en natuurlijke occlusies te hanteren. We ontdekken dat ViTs niet verbeteren of verslechteren wanneer ze worden getraind met Patch Mixing, maar CNN's verwerven nieuwe mogelijkheden om informatie buiten de context te negeren en verbeteren op occlusiebenchmarks, wat ons doet concluderen dat deze trainingsmethode een manier is om in CNN's de vaardigheden te simuleren die ViTs al bezitten. We zullen onze Patch Mixing-implementatie en voorgestelde datasets vrijgeven voor publiek gebruik. Projectpagina: https://arielnlee.github.io/PatchMixing/
English
Vision transformers (ViTs) have significantly changed the computer vision
landscape and have periodically exhibited superior performance in vision tasks
compared to convolutional neural networks (CNNs). Although the jury is still
out on which model type is superior, each has unique inductive biases that
shape their learning and generalization performance. For example, ViTs have
interesting properties with respect to early layer non-local feature
dependence, as well as self-attention mechanisms which enhance learning
flexibility, enabling them to ignore out-of-context image information more
effectively. We hypothesize that this power to ignore out-of-context
information (which we name patch selectivity), while integrating
in-context information in a non-local manner in early layers, allows ViTs to
more easily handle occlusion. In this study, our aim is to see whether we can
have CNNs simulate this ability of patch selectivity by effectively
hardwiring this inductive bias using Patch Mixing data augmentation, which
consists of inserting patches from another image onto a training image and
interpolating labels between the two image classes. Specifically, we use Patch
Mixing to train state-of-the-art ViTs and CNNs, assessing its impact on their
ability to ignore out-of-context patches and handle natural occlusions. We find
that ViTs do not improve nor degrade when trained using Patch Mixing, but CNNs
acquire new capabilities to ignore out-of-context information and improve on
occlusion benchmarks, leaving us to conclude that this training method is a way
of simulating in CNNs the abilities that ViTs already possess. We will release
our Patch Mixing implementation and proposed datasets for public use. Project
page: https://arielnlee.github.io/PatchMixing/