Comprendere la dipendenza dalle caratteristiche visive attraverso la lente della complessità

Abstract

Studi recenti suggeriscono che il bias induttivo dei modelli di deep learning verso il favorire caratteristiche più semplici possa essere una delle fonti dell'apprendimento tramite scorciatoie. Tuttavia, c'è stata un'attenzione limitata nel comprendere la complessità delle innumerevoli caratteristiche che i modelli apprendono. In questo lavoro, introduciamo una nuova metrica per quantificare la complessità delle caratteristiche, basata sulla V-informazione e che cattura se una caratteristica richiede trasformazioni computazionali complesse per essere estratta. Utilizzando questa metrica di V-informazione, analizziamo le complessità di 10.000 caratteristiche, rappresentate come direzioni nel penultimo strato, che sono state estratte da un modello visivo standard addestrato su ImageNet. Il nostro studio affronta quattro domande chiave: in primo luogo, ci chiediamo come appaiono le caratteristiche in funzione della complessità e troviamo uno spettro di caratteristiche da semplici a complesse presenti all'interno del modello. In secondo luogo, ci chiediamo quando le caratteristiche vengono apprese durante l'addestramento. Scopriamo che le caratteristiche più semplici dominano all'inizio dell'addestramento, mentre quelle più complesse emergono gradualmente. In terzo luogo, indaghiamo dove all'interno della rete fluiscono le caratteristiche semplici e complesse, e troviamo che le caratteristiche più semplici tendono a bypassare la gerarchia visiva attraverso connessioni residue. In quarto luogo, esploriamo la connessione tra la complessità delle caratteristiche e la loro importanza nel guidare la decisione della rete. Scopriamo che le caratteristiche complesse tendono a essere meno importanti. Sorprendentemente, le caratteristiche importanti diventano accessibili negli strati più iniziali durante l'addestramento, come un processo di sedimentazione, permettendo al modello di costruire su questi elementi fondamentali.

English

Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on V-information and capturing whether a feature requires complex computational transformations to be extracted. Using this V-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements.

Comprendere la dipendenza dalle caratteristiche visive attraverso la lente della complessità

Understanding Visual Feature Reliance through the Lens of Complexity

Abstract

Support