ChatPaper.aiChatPaper

Intégration de la sélectivité des patchs de ViT dans les CNN par mélange de patchs

Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing

June 30, 2023
Auteurs: Ariel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate Saenko, Nataniel Ruiz
cs.AI

Résumé

Les vision transformers (ViTs) ont profondément transformé le paysage de la vision par ordinateur et ont régulièrement démontré des performances supérieures dans les tâches visuelles par rapport aux réseaux de neurones convolutifs (CNNs). Bien que la question de savoir quel type de modèle est supérieur reste ouverte, chacun possède des biais inductifs uniques qui influencent leur apprentissage et leur capacité de généralisation. Par exemple, les ViTs présentent des propriétés intéressantes concernant la dépendance non locale des caractéristiques dans les couches initiales, ainsi que des mécanismes d'auto-attention qui améliorent la flexibilité d'apprentissage, leur permettant d'ignorer plus efficacement les informations hors contexte dans les images. Nous émettons l'hypothèse que cette capacité à ignorer les informations hors contexte (que nous nommons sélectivité de patch), tout en intégrant les informations dans le contexte de manière non locale dans les couches initiales, permet aux ViTs de mieux gérer les occlusions. Dans cette étude, notre objectif est de déterminer si nous pouvons permettre aux CNNs de simuler cette capacité de sélectivité de patch en intégrant efficacement ce biais inductif grâce à l'augmentation de données par Patch Mixing, qui consiste à insérer des patches d'une autre image dans une image d'entraînement et à interpoler les étiquettes entre les deux classes d'images. Plus précisément, nous utilisons le Patch Mixing pour entraîner des ViTs et des CNNs de pointe, en évaluant son impact sur leur capacité à ignorer les patches hors contexte et à gérer les occlusions naturelles. Nous constatons que les ViTs ne s'améliorent ni ne se détériorent lorsqu'ils sont entraînés avec le Patch Mixing, mais que les CNNs acquièrent de nouvelles capacités pour ignorer les informations hors contexte et améliorent leurs performances sur les benchmarks d'occlusion, ce qui nous amène à conclure que cette méthode d'entraînement permet de simuler dans les CNNs les capacités que les ViTs possèdent déjà. Nous mettrons à disposition notre implémentation de Patch Mixing et les jeux de données proposés pour un usage public. Page du projet : https://arielnlee.github.io/PatchMixing/
English
Vision transformers (ViTs) have significantly changed the computer vision landscape and have periodically exhibited superior performance in vision tasks compared to convolutional neural networks (CNNs). Although the jury is still out on which model type is superior, each has unique inductive biases that shape their learning and generalization performance. For example, ViTs have interesting properties with respect to early layer non-local feature dependence, as well as self-attention mechanisms which enhance learning flexibility, enabling them to ignore out-of-context image information more effectively. We hypothesize that this power to ignore out-of-context information (which we name patch selectivity), while integrating in-context information in a non-local manner in early layers, allows ViTs to more easily handle occlusion. In this study, our aim is to see whether we can have CNNs simulate this ability of patch selectivity by effectively hardwiring this inductive bias using Patch Mixing data augmentation, which consists of inserting patches from another image onto a training image and interpolating labels between the two image classes. Specifically, we use Patch Mixing to train state-of-the-art ViTs and CNNs, assessing its impact on their ability to ignore out-of-context patches and handle natural occlusions. We find that ViTs do not improve nor degrade when trained using Patch Mixing, but CNNs acquire new capabilities to ignore out-of-context information and improve on occlusion benchmarks, leaving us to conclude that this training method is a way of simulating in CNNs the abilities that ViTs already possess. We will release our Patch Mixing implementation and proposed datasets for public use. Project page: https://arielnlee.github.io/PatchMixing/
PDF80December 15, 2024