Verständnis von Video-Transformern durch universelle Konzeptentdeckung
Understanding Video Transformers via Universal Concept Discovery
January 19, 2024
Autoren: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
cs.AI
Zusammenfassung
Diese Arbeit untersucht das Problem der konzeptbasierten Interpretierbarkeit von Transformer-Repräsentationen für Videos. Konkret streben wir an, den Entscheidungsprozess von Video-Transformatoren anhand von hochrangigen, räumlich-zeitlichen Konzepten zu erklären, die automatisch entdeckt werden. Bisherige Forschung zur konzeptbasierten Interpretierbarkeit konzentrierte sich ausschließlich auf Aufgaben auf Bildebene. Im Vergleich dazu müssen Video-Modelle die zusätzliche zeitliche Dimension bewältigen, was die Komplexität erhöht und Herausforderungen bei der Identifizierung dynamischer Konzepte über die Zeit hinweg mit sich bringt. In dieser Arbeit gehen wir systematisch auf diese Herausforderungen ein, indem wir den ersten Video Transformer Concept Discovery (VTCD)-Algorithmus einführen. Hierfür schlagen wir einen effizienten Ansatz zur unüberwachten Identifizierung von Einheiten der Video-Transformer-Repräsentationen – Konzepten – und zur Bewertung ihrer Bedeutung für die Ausgabe eines Modells vor. Die resultierenden Konzepte sind hochgradig interpretierbar und enthüllen räumlich-zeitliche Denkmechanismen sowie objektzentrierte Repräsentationen in unstrukturierten Video-Modellen. Durch die gemeinsame Analyse einer vielfältigen Gruppe von überwachten und selbstüberwachten Repräsentationen entdecken wir, dass einige dieser Mechanismen universell in Video-Transformatoren sind. Schließlich zeigen wir, dass VTCD verwendet werden kann, um die Modellleistung für feingranulare Aufgaben zu verbessern.
English
This paper studies the problem of concept-based interpretability of
transformer representations for videos. Concretely, we seek to explain the
decision-making process of video transformers based on high-level,
spatiotemporal concepts that are automatically discovered. Prior research on
concept-based interpretability has concentrated solely on image-level tasks.
Comparatively, video models deal with the added temporal dimension, increasing
complexity and posing challenges in identifying dynamic concepts over time. In
this work, we systematically address these challenges by introducing the first
Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose
an efficient approach for unsupervised identification of units of video
transformer representations - concepts, and ranking their importance to the
output of a model. The resulting concepts are highly interpretable, revealing
spatio-temporal reasoning mechanisms and object-centric representations in
unstructured video models. Performing this analysis jointly over a diverse set
of supervised and self-supervised representations, we discover that some of
these mechanism are universal in video transformers. Finally, we demonstrate
that VTCDcan be used to improve model performance for fine-grained tasks.