Comprendre la dépendance aux caractéristiques visuelles à travers le prisme de la complexité
Understanding Visual Feature Reliance through the Lens of Complexity
July 8, 2024
Auteurs: Thomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann
cs.AI
Résumé
Les études récentes suggèrent que le biais inductif des modèles d'apprentissage profond en faveur de caractéristiques plus simples pourrait être l'une des sources de l'apprentissage par raccourci. Cependant, il y a eu peu d'attention portée à la compréhension de la complexité des innombrables caractéristiques que les modèles apprennent. Dans ce travail, nous introduisons une nouvelle métrique pour quantifier la complexité des caractéristiques, basée sur la V-information et capturant si une caractéristique nécessite des transformations computationnelles complexes pour être extraite. En utilisant cette métrique de V-information, nous analysons les complexités de 10 000 caractéristiques, représentées comme des directions dans l'avant-dernière couche, extraites d'un modèle de vision standard entraîné sur ImageNet. Notre étude aborde quatre questions clés : Premièrement, nous examinons à quoi ressemblent les caractéristiques en fonction de leur complexité et trouvons un spectre de caractéristiques allant du simple au complexe présentes dans le modèle. Deuxièmement, nous cherchons à savoir quand les caractéristiques sont apprises pendant l'entraînement. Nous constatons que les caractéristiques plus simples dominent au début de l'entraînement, et que les caractéristiques plus complexes émergent progressivement. Troisièmement, nous investiguons où, dans le réseau, les caractéristiques simples et complexes circulent, et trouvons que les caractéristiques plus simples ont tendance à contourner la hiérarchie visuelle via les connexions résiduelles. Quatrièmement, nous explorons le lien entre la complexité des caractéristiques et leur importance dans la prise de décision du réseau. Nous constatons que les caractéristiques complexes ont tendance à être moins importantes. Étonnamment, les caractéristiques importantes deviennent accessibles dans les couches antérieures pendant l'entraînement, comme un processus de sédimentation, permettant au modèle de s'appuyer sur ces éléments fondamentaux.
English
Recent studies suggest that deep learning models inductive bias towards
favoring simpler features may be one of the sources of shortcut learning. Yet,
there has been limited focus on understanding the complexity of the myriad
features that models learn. In this work, we introduce a new metric for
quantifying feature complexity, based on V-information and
capturing whether a feature requires complex computational transformations to
be extracted. Using this V-information metric, we analyze the
complexities of 10,000 features, represented as directions in the penultimate
layer, that were extracted from a standard ImageNet-trained vision model. Our
study addresses four key questions: First, we ask what features look like as a
function of complexity and find a spectrum of simple to complex features
present within the model. Second, we ask when features are learned during
training. We find that simpler features dominate early in training, and more
complex features emerge gradually. Third, we investigate where within the
network simple and complex features flow, and find that simpler features tend
to bypass the visual hierarchy via residual connections. Fourth, we explore the
connection between features complexity and their importance in driving the
networks decision. We find that complex features tend to be less important.
Surprisingly, important features become accessible at earlier layers during
training, like a sedimentation process, allowing the model to build upon these
foundational elements.Summary
AI-Generated Summary