Cartographier le flux : Révéler les voies cachées de l'information dans les modèles de langage vidéo
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
papers.authors: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
papers.abstract
Les modèles de langage de grande taille pour la vidéo (VideoLLMs) étendent les capacités des modèles vision-langage aux entrées spatiotemporelles, permettant des tâches telles que la réponse à des questions sur la vidéo (VideoQA). Malgré les récents progrès des VideoLLMs, leurs mécanismes internes concernant l'endroit et la manière dont ils extraient et propagent l'information vidéo et textuelle restent peu explorés. Dans cette étude, nous examinons le flux d'information interne des VideoLLMs à l'aide de techniques d'interprétabilité mécanistique. Notre analyse révèle des schémas cohérents pour diverses tâches de VideoQA : (1) le raisonnement temporel dans les VideoLLMs débute par des interactions actives entre les trames dans les couches précoces à intermédiaires, (2) suivi par une intégration progressive vidéo-langage dans les couches intermédiaires. Ceci est facilité par un alignement entre les représentations vidéo et les embeddings linguistiques contenant des concepts temporels. (3) Une fois cette intégration achevée, le modèle est prêt à générer des réponses correctes dans les couches intermédiaires à tardives. (4) Sur la base de notre analyse, nous montrons que les VideoLLMs peuvent préserver leurs performances en VideoQA en sélectionnant ces voies d'information efficaces tout en supprimant une quantité substantielle de connexions attentionnelles, par exemple 58 % dans LLaVA-NeXT-7B-Video-FT. Ces résultats fournissent un modèle conceptuel sur la manière dont les VideoLLMs effectuent un raisonnement temporel et offrent des perspectives pratiques pour améliorer l'interprétabilité du modèle et la généralisation en aval. Notre page de projet avec le code source est disponible à l'adresse https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io