Compreendendo Transformers de Vídeo por meio da Descoberta Universal de Conceitos
Understanding Video Transformers via Universal Concept Discovery
January 19, 2024
Autores: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
cs.AI
Resumo
Este artigo estuda o problema da interpretabilidade baseada em conceitos das representações de transformadores para vídeos. Concretamente, buscamos explicar o processo de tomada de decisão dos transformadores de vídeo com base em conceitos espaço-temporais de alto nível que são descobertos automaticamente. Pesquisas anteriores sobre interpretabilidade baseada em conceitos concentraram-se exclusivamente em tarefas de nível de imagem. Em comparação, modelos de vídeo lidam com a dimensão temporal adicional, aumentando a complexidade e apresentando desafios na identificação de conceitos dinâmicos ao longo do tempo. Neste trabalho, abordamos sistematicamente esses desafios ao introduzir o primeiro algoritmo de Descoberta de Conceitos em Transformadores de Vídeo (VTCD, na sigla em inglês). Para isso, propomos uma abordagem eficiente para a identificação não supervisionada de unidades de representações de transformadores de vídeo — os conceitos — e a classificação de sua importância para a saída de um modelo. Os conceitos resultantes são altamente interpretáveis, revelando mecanismos de raciocínio espaço-temporal e representações centradas em objetos em modelos de vídeo não estruturados. Ao realizar essa análise conjuntamente em um conjunto diversificado de representações supervisionadas e auto-supervisionadas, descobrimos que alguns desses mecanismos são universais em transformadores de vídeo. Por fim, demonstramos que o VTCD pode ser utilizado para melhorar o desempenho do modelo em tarefas de granularidade fina.
English
This paper studies the problem of concept-based interpretability of
transformer representations for videos. Concretely, we seek to explain the
decision-making process of video transformers based on high-level,
spatiotemporal concepts that are automatically discovered. Prior research on
concept-based interpretability has concentrated solely on image-level tasks.
Comparatively, video models deal with the added temporal dimension, increasing
complexity and posing challenges in identifying dynamic concepts over time. In
this work, we systematically address these challenges by introducing the first
Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose
an efficient approach for unsupervised identification of units of video
transformer representations - concepts, and ranking their importance to the
output of a model. The resulting concepts are highly interpretable, revealing
spatio-temporal reasoning mechanisms and object-centric representations in
unstructured video models. Performing this analysis jointly over a diverse set
of supervised and self-supervised representations, we discover that some of
these mechanism are universal in video transformers. Finally, we demonstrate
that VTCDcan be used to improve model performance for fine-grained tasks.