複雑性のレンズを通して視覚的特徴の依存性を理解する
Understanding Visual Feature Reliance through the Lens of Complexity
July 8, 2024
著者: Thomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann
cs.AI
要旨
最近の研究によると、深層学習モデルの単純な特徴を好む帰納的バイアスが、ショートカット学習の原因の一つである可能性が示唆されています。しかし、モデルが学習する無数の特徴の複雑さを理解することには、これまで限定的な焦点しか当てられていませんでした。本研究では、V-informationに基づき、特徴を抽出するために複雑な計算的変換を必要とするかどうかを捉える、新しい特徴複雑度の定量化指標を導入します。このV-information指標を用いて、標準的なImageNet学習済み視覚モデルから抽出された、最終層の直前の層における方向として表現された10,000の特徴の複雑度を分析します。本研究では、以下の4つの主要な問いに取り組みます。第一に、複雑度の関数として特徴がどのように見えるかを問い、モデル内に単純な特徴から複雑な特徴までのスペクトラムが存在することを明らかにします。第二に、特徴が学習のどの段階で獲得されるかを問い、単純な特徴が学習の初期段階で支配的であり、より複雑な特徴が徐々に現れることを発見します。第三に、単純な特徴と複雑な特徴がネットワークのどこを流れるかを調査し、単純な特徴が残差接続を介して視覚的階層をバイパスする傾向があることを明らかにします。第四に、特徴の複雑度とネットワークの意思決定における重要性との関連性を探り、複雑な特徴は重要性が低い傾向があることを発見します。驚くべきことに、重要な特徴は学習中に早期の層でアクセス可能になり、沈殿プロセスのように、モデルがこれらの基礎要素を基に構築できるようになります。
English
Recent studies suggest that deep learning models inductive bias towards
favoring simpler features may be one of the sources of shortcut learning. Yet,
there has been limited focus on understanding the complexity of the myriad
features that models learn. In this work, we introduce a new metric for
quantifying feature complexity, based on V-information and
capturing whether a feature requires complex computational transformations to
be extracted. Using this V-information metric, we analyze the
complexities of 10,000 features, represented as directions in the penultimate
layer, that were extracted from a standard ImageNet-trained vision model. Our
study addresses four key questions: First, we ask what features look like as a
function of complexity and find a spectrum of simple to complex features
present within the model. Second, we ask when features are learned during
training. We find that simpler features dominate early in training, and more
complex features emerge gradually. Third, we investigate where within the
network simple and complex features flow, and find that simpler features tend
to bypass the visual hierarchy via residual connections. Fourth, we explore the
connection between features complexity and their importance in driving the
networks decision. We find that complex features tend to be less important.
Surprisingly, important features become accessible at earlier layers during
training, like a sedimentation process, allowing the model to build upon these
foundational elements.Summary
AI-Generated Summary