Het hardwiren van ViT-patchselectiviteit in CNN's met behulp van Patch Mixing

Samenvatting

Vision transformers (ViTs) hebben het landschap van computervisie aanzienlijk veranderd en hebben periodiek superieure prestaties getoond in visuele taken in vergelijking met convolutionele neurale netwerken (CNN's). Hoewel het nog niet definitief is welk modeltype superieur is, heeft elk unieke inductieve biases die hun leer- en generalisatieprestaties vormgeven. ViTs hebben bijvoorbeeld interessante eigenschappen met betrekking tot niet-lokale kenmerkafhankelijkheid in vroege lagen, evenals self-attention-mechanismen die de leerflexibiliteit vergroten, waardoor ze informatie buiten de context van een beeld effectiever kunnen negeren. We veronderstellen dat dit vermogen om informatie buiten de context te negeren (wat we patchselectiviteit noemen), terwijl informatie binnen de context op een niet-lokale manier in vroege lagen wordt geïntegreerd, ViTs in staat stelt om occlusie gemakkelijker te hanteren. In deze studie is ons doel om te onderzoeken of we CNN's dit vermogen van patchselectiviteit kunnen laten simuleren door deze inductieve bias effectief in te bouwen met behulp van Patch Mixing data-augmentatie, wat bestaat uit het invoegen van patches van een ander beeld in een trainingsbeeld en het interpoleren van labels tussen de twee beeldklassen. Specifiek gebruiken we Patch Mixing om state-of-the-art ViTs en CNN's te trainen, waarbij we de impact ervan beoordelen op hun vermogen om patches buiten de context te negeren en natuurlijke occlusies te hanteren. We ontdekken dat ViTs niet verbeteren of verslechteren wanneer ze worden getraind met Patch Mixing, maar CNN's verwerven nieuwe mogelijkheden om informatie buiten de context te negeren en verbeteren op occlusiebenchmarks, wat ons doet concluderen dat deze trainingsmethode een manier is om in CNN's de vaardigheden te simuleren die ViTs al bezitten. We zullen onze Patch Mixing-implementatie en voorgestelde datasets vrijgeven voor publiek gebruik. Projectpagina: https://arielnlee.github.io/PatchMixing/

English

Vision transformers (ViTs) have significantly changed the computer vision landscape and have periodically exhibited superior performance in vision tasks compared to convolutional neural networks (CNNs). Although the jury is still out on which model type is superior, each has unique inductive biases that shape their learning and generalization performance. For example, ViTs have interesting properties with respect to early layer non-local feature dependence, as well as self-attention mechanisms which enhance learning flexibility, enabling them to ignore out-of-context image information more effectively. We hypothesize that this power to ignore out-of-context information (which we name patch selectivity), while integrating in-context information in a non-local manner in early layers, allows ViTs to more easily handle occlusion. In this study, our aim is to see whether we can have CNNs simulate this ability of patch selectivity by effectively hardwiring this inductive bias using Patch Mixing data augmentation, which consists of inserting patches from another image onto a training image and interpolating labels between the two image classes. Specifically, we use Patch Mixing to train state-of-the-art ViTs and CNNs, assessing its impact on their ability to ignore out-of-context patches and handle natural occlusions. We find that ViTs do not improve nor degrade when trained using Patch Mixing, but CNNs acquire new capabilities to ignore out-of-context information and improve on occlusion benchmarks, leaving us to conclude that this training method is a way of simulating in CNNs the abilities that ViTs already possess. We will release our Patch Mixing implementation and proposed datasets for public use. Project page: https://arielnlee.github.io/PatchMixing/

Het hardwiren van ViT-patchselectiviteit in CNN's met behulp van Patch Mixing

Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing

Samenvatting

Support