ChatPaper.aiChatPaper

Comprensión de los Transformers de Video mediante el Descubrimiento Universal de Conceptos

Understanding Video Transformers via Universal Concept Discovery

January 19, 2024
Autores: Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
cs.AI

Resumen

Este artículo estudia el problema de la interpretabilidad basada en conceptos de las representaciones de transformadores para videos. Concretamente, buscamos explicar el proceso de toma de decisiones de los transformadores de video basándonos en conceptos espaciotemporales de alto nivel que se descubren automáticamente. Investigaciones previas sobre interpretabilidad basada en conceptos se han centrado únicamente en tareas a nivel de imagen. En comparación, los modelos de video manejan la dimensión temporal adicional, lo que aumenta la complejidad y plantea desafíos en la identificación de conceptos dinámicos a lo largo del tiempo. En este trabajo, abordamos sistemáticamente estos desafíos introduciendo el primer algoritmo de Descubrimiento de Conceptos en Transformadores de Video (VTCD, por sus siglas en inglés). Para ello, proponemos un enfoque eficiente para la identificación no supervisada de unidades de representaciones de transformadores de video —conceptos— y la clasificación de su importancia para la salida de un modelo. Los conceptos resultantes son altamente interpretables, revelando mecanismos de razonamiento espaciotemporal y representaciones centradas en objetos en modelos de video no estructurados. Al realizar este análisis de manera conjunta sobre un conjunto diverso de representaciones supervisadas y auto-supervisadas, descubrimos que algunos de estos mecanismos son universales en los transformadores de video. Finalmente, demostramos que VTCD puede utilizarse para mejorar el rendimiento del modelo en tareas de gran detalle.
English
This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we demonstrate that VTCDcan be used to improve model performance for fine-grained tasks.
PDF81December 15, 2024