Den Fluss abbilden: Verborgene Informationspfade in VideoLLMs aufdecken
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
papers.authors: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
papers.abstract
Große Video-Sprachmodelle (VideoLLMs) erweitern die Fähigkeiten von Sprach-Vision-Modellen auf raumzeitliche Eingaben und ermöglichen Aufgaben wie das Beantworten von Videofragen (VideoQA). Trotz jüngster Fortschritte bei VideoLLMs sind ihre internen Mechanismen, wo und wie sie Video- und Textinformationen extrahieren und weiterleiten, noch wenig erforscht. In dieser Studie untersuchen wir den internen Informationsfluss von VideoLLMs mit Methoden der mechanistischen Interpretierbarkeit. Unsere Analyse zeigt konsistente Muster über verschiedene VideoQA-Aufgaben hinweg: (1) Zeitliches Schließen in VideoLLMs beginnt mit aktiven übergreifenden Frame-Interaktionen in frühen bis mittleren Schichten, (2) gefolgt von einer fortschreitenden Video-Sprache-Integration in mittleren Schichten. Dies wird durch eine Ausrichtung zwischen Videorepräsentationen und linguistischen Einbettungen mit zeitlichen Konzepten ermöglicht. (3) Nach Abschluss dieser Integration ist das Modell in mittleren bis späten Schichten bereit, korrekte Antworten zu generieren. (4) Basierend auf unserer Analyse zeigen wir, dass VideoLLMs ihre VideoQA-Leistung beibehalten können, indem sie diese effektiven Informationspfade auswählen und gleichzeitig einen Großteil der Aufmerksamkeitsverbindungen unterdrücken, z.B. 58 % in LLaVA-NeXT-7B-Video-FT. Diese Erkenntnisse liefern eine Blaupause dafür, wie VideoLLMs zeitliches Schließen durchführen, und bieten praktische Einblicke zur Verbesserung der Modellinterpretierbarkeit und der Generalisierung für nachgelagerte Aufgaben. Unsere Projektseite mit dem Quellcode ist verfügbar unter https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io