Понимание видео-трансформеров через универсальное обнаружение концепций

Аннотация

В данной работе исследуется проблема интерпретируемости на основе концепций для представлений трансформеров, применяемых к видео. Конкретно, мы стремимся объяснить процесс принятия решений видео-трансформерами на основе высокоуровневых пространственно-временных концепций, которые автоматически обнаруживаются. Предыдущие исследования в области интерпретируемости на основе концепций сосредотачивались исключительно на задачах уровня изображений. В отличие от этого, видео-модели работают с дополнительным временным измерением, что увеличивает сложность и создает трудности в идентификации динамических концепций во времени. В данной работе мы систематически решаем эти проблемы, представляя первый алгоритм Video Transformer Concept Discovery (VTCD). Для этого мы предлагаем эффективный подход для неконтролируемого выявления единиц представлений видео-трансформеров — концепций — и ранжирования их важности для выхода модели. Полученные концепции обладают высокой интерпретируемостью, раскрывая механизмы пространственно-временного рассуждения и объектно-ориентированные представления в неструктурированных видео-моделях. Проводя этот анализ совместно для разнообразного набора контролируемых и самоконтролируемых представлений, мы обнаруживаем, что некоторые из этих механизмов являются универсальными для видео-трансформеров. Наконец, мы демонстрируем, что VTCD может быть использован для улучшения производительности модели в задачах тонкой детализации.

English

This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we demonstrate that VTCDcan be used to improve model performance for fine-grained tasks.

Понимание видео-трансформеров через универсальное обнаружение концепций

Understanding Video Transformers via Universal Concept Discovery

Аннотация

Support