Compreensão da Dependência de Características Visuais Através da Perspetiva da Complexidade

Resumo

Estudos recentes sugerem que o viés indutivo dos modelos de aprendizado profundo em favor de características mais simples pode ser uma das fontes de aprendizado de atalhos. No entanto, houve um foco limitado em compreender a complexidade das inúmeras características que os modelos aprendem. Neste trabalho, introduzimos uma nova métrica para quantificar a complexidade das características, com base na V-informação, capturando se uma característica requer transformações computacionais complexas para ser extraída. Usando essa métrica de V-informação, analisamos as complexidades de 10.000 características, representadas como direções na camada penúltima, que foram extraídas de um modelo de visão padrão treinado no ImageNet. Nosso estudo aborda quatro questões-chave: Primeiramente, questionamos como as características se parecem em função da complexidade e encontramos um espectro de características simples a complexas presentes no modelo. Em segundo lugar, investigamos quando as características são aprendidas durante o treinamento. Descobrimos que características mais simples dominam no início do treinamento, e características mais complexas surgem gradualmente. Em terceiro lugar, investigamos onde, dentro da rede, as características simples e complexas fluem, e descobrimos que as características mais simples tendem a contornar a hierarquia visual por meio de conexões residuais. Por fim, exploramos a conexão entre a complexidade das características e sua importância na tomada de decisão da rede. Descobrimos que características complexas tendem a ser menos importantes. Surpreendentemente, características importantes se tornam acessíveis em camadas mais iniciais durante o treinamento, como um processo de sedimentação, permitindo que o modelo construa sobre esses elementos fundamentais encontrados.

English

Recent studies suggest that deep learning models inductive bias towards favoring simpler features may be one of the sources of shortcut learning. Yet, there has been limited focus on understanding the complexity of the myriad features that models learn. In this work, we introduce a new metric for quantifying feature complexity, based on V-information and capturing whether a feature requires complex computational transformations to be extracted. Using this V-information metric, we analyze the complexities of 10,000 features, represented as directions in the penultimate layer, that were extracted from a standard ImageNet-trained vision model. Our study addresses four key questions: First, we ask what features look like as a function of complexity and find a spectrum of simple to complex features present within the model. Second, we ask when features are learned during training. We find that simpler features dominate early in training, and more complex features emerge gradually. Third, we investigate where within the network simple and complex features flow, and find that simpler features tend to bypass the visual hierarchy via residual connections. Fourth, we explore the connection between features complexity and their importance in driving the networks decision. We find that complex features tend to be less important. Surprisingly, important features become accessible at earlier layers during training, like a sedimentation process, allowing the model to build upon these foundational elements.

Compreensão da Dependência de Características Visuais Através da Perspetiva da Complexidade

Understanding Visual Feature Reliance through the Lens of Complexity

Resumo

Support