ChatPaper.aiChatPaper

Понимание зависимости от визуальных признаков через призму сложности.

Understanding Visual Feature Reliance through the Lens of Complexity

July 8, 2024
Авторы: Thomas Fel, Louis Bethune, Andrew Kyle Lampinen, Thomas Serre, Katherine Hermann
cs.AI

Аннотация

Недавние исследования предполагают, что индуктивный байес глубоких моделей к облегчению более простых характеристик может быть одним из источников обучения по сокращенному пути. Тем не менее, внимание уделялось ограниченно пониманию сложности множества характеристик, которые изучают модели. В данной работе мы представляем новую метрику для количественной оценки сложности характеристик, основанную на V-информации и определяющую, требуют ли характеристики сложных вычислительных преобразований для извлечения. Используя эту метрику V-информации, мы анализируем сложности 10 000 характеристик, представленных как направления в предпоследнем слое, которые были извлечены из стандартной модели зрения, обученной на ImageNet. Наше исследование рассматривает четыре ключевых вопроса: Во-первых, мы спрашиваем, какими являются характеристики в зависимости от сложности и обнаруживаем спектр от простых до сложных характеристик, присутствующих в модели. Во-вторых, мы исследуем, когда характеристики изучаются во время обучения. Мы обнаруживаем, что более простые характеристики преобладают в начале обучения, а более сложные характеристики постепенно появляются. В-третьих, мы исследуем, куда в сети направляются простые и сложные характеристики, и обнаруживаем, что более простые характеристики имеют тенденцию обходить визуальную иерархию через остаточные соединения. В-четвертых, мы исследуем связь между сложностью характеристик и их важностью для принятия решений сетью. Мы обнаруживаем, что сложные характеристики имеют тенденцию быть менее важными. Удивительно, важные характеристики становятся доступными на более ранних слоях во время обучения, подобно процессу осаждения, позволяя модели строить на этих основных элементах.
English
Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on V-information and capturing whether a feature requires complex computational transformations to be extracted. Using this V-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements.

Summary

AI-Generated Summary

PDF71November 28, 2024