Het begrijpen van visuele kenmerkafhankelijkheid door de lens van complexiteit

Samenvatting

Recente studies suggereren dat de inductieve bias van deep learning-modellen ten gunste van eenvoudigere kenmerken een van de bronnen van shortcut learning kan zijn. Toch is er beperkte aandacht geweest voor het begrijpen van de complexiteit van de talloze kenmerken die modellen leren. In dit werk introduceren we een nieuwe maatstaf voor het kwantificeren van kenmerkencomplexiteit, gebaseerd op V-informatie en gericht op het vaststellen of een kenmerk complexe computationele transformaties vereist om te worden geëxtraheerd. Met behulp van deze V-informatie-meting analyseren we de complexiteit van 10.000 kenmerken, weergegeven als richtingen in de voorlaatste laag, die zijn geëxtraheerd uit een standaard op ImageNet getraind vision-model. Onze studie behandelt vier belangrijke vragen: Ten eerste onderzoeken we hoe kenmerken eruitzien als functie van complexiteit en vinden we een spectrum van eenvoudige tot complexe kenmerken binnen het model. Ten tweede onderzoeken we wanneer kenmerken worden geleerd tijdens de training. We ontdekken dat eenvoudigere kenmerken vroeg in de training domineren, en complexere kenmerken geleidelijk ontstaan. Ten derde onderzoeken we waar binnen het netwerk eenvoudige en complexe kenmerken stromen, en vinden we dat eenvoudigere kenmerken de neiging hebben om de visuele hiërarchie te omzeilen via restverbindingen. Ten vierde verkennen we het verband tussen de complexiteit van kenmerken en hun belang bij het sturen van de beslissing van het netwerk. We ontdekken dat complexe kenmerken over het algemeen minder belangrijk zijn. Verrassend genoeg worden belangrijke kenmerken toegankelijk in eerdere lagen tijdens de training, zoals een sedimentatieproces, waardoor het model kan voortbouwen op deze fundamentele elementen.

English

Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on V-information and capturing whether a feature requires complex computational transformations to be extracted. Using this V-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements.

Het begrijpen van visuele kenmerkafhankelijkheid door de lens van complexiteit

Understanding Visual Feature Reliance through the Lens of Complexity

Samenvatting

Support