Понимание видео-трансформеров через универсальное обнаружение концепций
Understanding Video Transformers via Universal Concept Discovery
January 19, 2024
Авторы: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
cs.AI
Аннотация
В данной работе исследуется проблема интерпретируемости на основе концепций для представлений трансформеров, применяемых к видео. Конкретно, мы стремимся объяснить процесс принятия решений видео-трансформерами на основе высокоуровневых пространственно-временных концепций, которые автоматически обнаруживаются. Предыдущие исследования в области интерпретируемости на основе концепций сосредотачивались исключительно на задачах уровня изображений. В отличие от этого, видео-модели работают с дополнительным временным измерением, что увеличивает сложность и создает трудности в идентификации динамических концепций во времени. В данной работе мы систематически решаем эти проблемы, представляя первый алгоритм Video Transformer Concept Discovery (VTCD). Для этого мы предлагаем эффективный подход для неконтролируемого выявления единиц представлений видео-трансформеров — концепций — и ранжирования их важности для выхода модели. Полученные концепции обладают высокой интерпретируемостью, раскрывая механизмы пространственно-временного рассуждения и объектно-ориентированные представления в неструктурированных видео-моделях. Проводя этот анализ совместно для разнообразного набора контролируемых и самоконтролируемых представлений, мы обнаруживаем, что некоторые из этих механизмов являются универсальными для видео-трансформеров. Наконец, мы демонстрируем, что VTCD может быть использован для улучшения производительности модели в задачах тонкой детализации.
English
This paper studies the problem of concept-based interpretability of
transformer representations for videos. Concretely, we seek to explain the
decision-making process of video transformers based on high-level,
spatiotemporal concepts that are automatically discovered. Prior research on
concept-based interpretability has concentrated solely on image-level tasks.
Comparatively, video models deal with the added temporal dimension, increasing
complexity and posing challenges in identifying dynamic concepts over time. In
this work, we systematically address these challenges by introducing the first
Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose
an efficient approach for unsupervised identification of units of video
transformer representations - concepts, and ranking their importance to the
output of a model. The resulting concepts are highly interpretable, revealing
spatio-temporal reasoning mechanisms and object-centric representations in
unstructured video models. Performing this analysis jointly over a diverse set
of supervised and self-supervised representations, we discover that some of
these mechanism are universal in video transformers. Finally, we demonstrate
that VTCDcan be used to improve model performance for fine-grained tasks.