ChatPaper.aiChatPaper

Comprendre les Transformers pour la Vidéo via la Découverte Universelle de Concepts

Understanding Video Transformers via Universal Concept Discovery

January 19, 2024
Auteurs: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
cs.AI

Résumé

Cet article étudie le problème de l'interprétabilité basée sur les concepts des représentations des transformeurs pour les vidéos. Concrètement, nous cherchons à expliquer le processus de prise de décision des transformeurs vidéo en nous appuyant sur des concepts spatio-temporels de haut niveau, découverts automatiquement. Les recherches antérieures sur l'interprétabilité basée sur les concepts se sont concentrées exclusivement sur des tâches au niveau de l'image. En comparaison, les modèles vidéo doivent gérer une dimension temporelle supplémentaire, ce qui accroît la complexité et pose des défis pour identifier des concepts dynamiques au fil du temps. Dans ce travail, nous abordons systématiquement ces défis en introduisant le premier algorithme de découverte de concepts pour transformeurs vidéo (VTCD). À cette fin, nous proposons une approche efficace pour l'identification non supervisée d'unités de représentations des transformeurs vidéo - les concepts - et pour classer leur importance par rapport à la sortie d'un modèle. Les concepts résultants sont hautement interprétables, révélant des mécanismes de raisonnement spatio-temporel et des représentations centrées sur les objets dans les modèles vidéo non structurés. En réalisant cette analyse conjointement sur un ensemble diversifié de représentations supervisées et auto-supervisées, nous découvrons que certains de ces mécanismes sont universels dans les transformeurs vidéo. Enfin, nous démontrons que VTCD peut être utilisé pour améliorer les performances des modèles dans des tâches fines et détaillées.
English
This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we demonstrate that VTCDcan be used to improve model performance for fine-grained tasks.
PDF81December 15, 2024