ChatPaper.aiChatPaper

In kaart brengen van de stroom: Verborgen informatiepaden in VideoLLMs onthullen

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

October 15, 2025
Auteurs: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI

Samenvatting

Video Large Language Models (VideoLLM's) breiden de mogelijkheden van visueel-taalmodel(len) uit naar ruimtelijk-temporele invoer, waardoor taken zoals video-vraag-antwoord (VideoQA) mogelijk worden. Ondanks recente vooruitgang in VideoLLM's blijven hun interne mechanismen – waar en hoe ze video- en tekstuele informatie extraheren en doorgeven – grotendeels onontgonnen. In deze studie onderzoeken we de interne informatiestroom van VideoLLM's met behulp van mechanistische interpreteerbaarheidstechnieken. Onze analyse onthult consistente patronen bij diverse VideoQA-taken: (1) temporeel redeneren in VideoLLM's begint met actieve kruis-frame-interacties in de vroege tot middelste lagen, (2) gevolgd door een progressieve integratie van video en taal in de middelste lagen. Dit wordt gefaciliteerd door de afstemming tussen videorepresentaties en linguïstische embedding(s) die temporele concepten bevatten. (3) Na voltooiing van deze integratie is het model klaar om correcte antwoorden te genereren in de middelste tot late lagen. (4) Op basis van onze analyse tonen we aan dat VideoLLM's hun VideoQA-prestaties kunnen behouden door deze effectieve informatiepaden te selecteren, terwijl een aanzienlijke hoeveelheid aandacht(s)verbindingen wordt onderdrukt, bijvoorbeeld 58% in LLaVA-NeXT-7B-Video-FT. Deze bevindingen bieden een blauwdruk voor hoe VideoLLM's temporeel redeneren uitvoeren en bieden praktische inzichten voor het verbeteren van modelinterpreteerbaarheid en downstream-generalizatie. Onze projectpagina met de broncode is beschikbaar op https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of vision-language models to spatiotemporal inputs, enabling tasks such as video question answering (VideoQA). Despite recent advances in VideoLLMs, their internal mechanisms on where and how they extract and propagate video and textual information remain less explored. In this study, we investigate the internal information flow of VideoLLMs using mechanistic interpretability techniques. Our analysis reveals consistent patterns across diverse VideoQA tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame interactions in early-to-middle layers, (2) followed by progressive video-language integration in middle layers. This is facilitated by alignment between video representations and linguistic embeddings containing temporal concepts. (3) Upon completion of this integration, the model is ready to generate correct answers in middle-to-late layers. (4) Based on our analysis, we show that VideoLLMs can retain their VideoQA performance by selecting these effective information pathways while suppressing a substantial amount of attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a blueprint on how VideoLLMs perform temporal reasoning and offer practical insights for improving model interpretability and downstream generalization. Our project page with the source code is available at https://map-the-flow.github.io
PDF121December 17, 2025