Video Transformers begrijpen via Universele Conceptontdekking
Understanding Video Transformers via Universal Concept Discovery
January 19, 2024
Auteurs: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
cs.AI
Samenvatting
Dit artikel bestudeert het probleem van conceptgebaseerde interpreteerbaarheid van transformer-representaties voor video's. Concreet streven we ernaar om het besluitvormingsproces van videotransformers te verklaren op basis van hoogwaardige, spatiotemporele concepten die automatisch worden ontdekt. Eerder onderzoek naar conceptgebaseerde interpreteerbaarheid heeft zich uitsluitend gericht op taken op beeldniveau. In vergelijking daarmee hebben videomodelen te maken met een extra temporele dimensie, wat de complexiteit verhoogt en uitdagingen met zich meebrengt bij het identificeren van dynamische concepten over tijd. In dit werk gaan we systematisch in op deze uitdagingen door het eerste Video Transformer Concept Discovery (VTCD)-algoritme te introduceren. Hiertoe stellen we een efficiënte aanpak voor voor de onbewaakte identificatie van eenheden van videotransformer-representaties - concepten - en het rangschikken van hun belang voor de uitvoer van een model. De resulterende concepten zijn zeer interpreteerbaar en onthullen spatiotemporele redeneermechanismen en objectgerichte representaties in ongestructureerde videomodelen. Door deze analyse gezamenlijk uit te voeren over een diverse set van bewaakte en zelfbewaakte representaties, ontdekken we dat sommige van deze mechanismen universeel zijn in videotransformers. Tot slot demonstreren we dat VTCD kan worden gebruikt om de modelprestaties voor fijnmazige taken te verbeteren.
English
This paper studies the problem of concept-based interpretability of
transformer representations for videos. Concretely, we seek to explain the
decision-making process of video transformers based on high-level,
spatiotemporal concepts that are automatically discovered. Prior research on
concept-based interpretability has concentrated solely on image-level tasks.
Comparatively, video models deal with the added temporal dimension, increasing
complexity and posing challenges in identifying dynamic concepts over time. In
this work, we systematically address these challenges by introducing the first
Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose
an efficient approach for unsupervised identification of units of video
transformer representations - concepts, and ranking their importance to the
output of a model. The resulting concepts are highly interpretable, revealing
spatio-temporal reasoning mechanisms and object-centric representations in
unstructured video models. Performing this analysis jointly over a diverse set
of supervised and self-supervised representations, we discover that some of
these mechanism are universal in video transformers. Finally, we demonstrate
that VTCDcan be used to improve model performance for fine-grained tasks.